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出 版 者 的 话 


文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 让， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华 章 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 遂 选 、 移 译 国外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson、 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy , 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 瞻 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
500 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 ，100037 





华章 科技 图 书 出 版 中 心 


本 书 赞誉 


“绝对 值得 一 读 ! 它 说 明了 如 何 将 科学 的 思想 方法 和 分 析 方 法 应 用 于 实际 的 技术 问题 …… 
它 体 现 了 技术 写作 和 思考 的 最 高 水 平 。 





Marcus J. Ranum, 防火 墙 设 计 师 
“是 继 既 清楚 又 准确 的 系列 齐 越 标准 之 后 的 又 一 杰出 力作 。 该 书 的 内 容 履 盖 了 T/ATCP 和 
HTTP， 并 前 析 了 WWW， 特 别 及 时 。 
Vern Paxson, 劳伦斯 伯克利 国家 实验 室 网 络 研究 小 组 
“对 需要 理解 Web 服 务 器 行为 细节 的 任何 人 来 说 ， 该 书 对 HTTP 的 介绍 都 是 无 价 之 宝 。 








Jeffrey Mogul, 数字 设备 公司 
“ 卷 3 是 对 前 两 卷 的 自然 补充 ， 包括 了 Web 服 务 中 的 网 络 技术 和 TCP 事 务 传输 的 深入 介绍 。” 


一 一 Pete Haverlock， 程 序 管理 员 ，IBM 
“在 《TCP/IP 详 解 》 的 最 后 一 卷 中 ，Rich Stevens 保 持 了 他 在 前 两 卷 中 给 自己 设 定 的 高 标 
WE. 清楚 的 表达 和 准确 的 技术 细节 。” 





Andras Olah，Twente 大 学 
“这 一 卷 保 持 了 这 套 书 前 几 卷 中 的 极 高 质量 ， 在 新 的 方向 上 扩充 了 对 网 络 实 现 技术 的 深入 
介绍 。 对 于 渴望 了 解 当今 Internet 工 作 原理 的 任何 人 来 说 ， 这 套 书 不 可 不 读 。” 


一 一 Ian Lance Taylor, (GNU/Talyor UUCP》 的 作者 


译 者 序 


我 们 愿意 向 广大 的 读者 推荐 W. Richard Stevens 关 于 TCP/IP 的 经 典 著 作 ( 共 3 卷 ) 的 中 译本 。 
本 书 是 其 中 的 第 3 卷 一 一 《TCP/IP 详 解 353. TCP 事 务 协 议 、HTTP、NNTP 和 UNIX 域 协议 》。 

大 家 知道 ，TCP/IP 已 成 为 计算 机 网 络 事实 上 的 标准 。 在 关于 TCP/IP 的 论著 中 ， 最 有 影响 
的 两 部 著作 是 : Douglas E. Comer 的 《用 TCP/IP 进 行 网 际 互 连 》( 一 套 共 3 卷 )， 以 及 Stevens 写 
的 这 3 卷 书 。 这 两 套 巨 著 都 很 有 名 ， 各 有 其 特点 。 无 论 是 从 事 计 算 机 网 络 教 学 的 教师 还 是 进行 
计算 机 网 络 科研 的 技术 人 员 ， 这 两 套 书 都 应 当 是 必 读 的 。 

这 套 书 的 特点 是 内 容 丰 富 ， 概 念 清楚 且 准 确 ， 讲 解 详细 ,例子 很 多 。 作 者 在 书 中 举 出 的 
所 有 例子 均 在 作者 安装 的 计算 机 网 络 上 做 过 实际 验证 , .而 且 书 后 还 给 出 了 许多 经 典 的 参考 文 
献 ， 并 一 一 写 出 评注 。 

第 3 卷 是 第 1 、2 卷 的 继续 和 深入 。 读 者 在 学 习 这 一 卷 时 ， 应 当先 具备 第 1 卷 和 第 2 卷 所 阅 
述 的 TCP/IP 的 基本 知识 和 实现 知识 。 本 卷 仍 然 采 用 大 量 的 源 代码 来 讲述 协议 及 其 应 用 的 实 
现 ， 并 且 本 卷 使 用 的 一 部 分 源 代码 是 对 第 1 卷 和 第 2 卷 中 有 关 源 代码 的 修改 ,需要 对 照 参考 。 
这 些 内 容 对 于 编写 TCP/IP 网 络 应 用 程序 的 程序 员 和 研究 TCP/IP 的 计算 机 网 络 研 究 人 员 是 非 
常 有 用 的 。 

本 卷 的 前 言 由 胡 谷 雨 翻 译 ， 第 1~5 章 由 胡 谷 雨 、 马 春 华 翻 译 ， 第 6~12 章 由 胡 谷 雨 、 张 晖 翻 
译 ， 第 13~15 章 由 吴 礼 发 、 李 旺 翻 译 ， 第 16~18 章 由 吴 礼 发 、 金 风 林 翻译 ， 附 录 由 胡 谷 雨 翻译 。 
全 书 由 谢 希 仁 进行 校 阅 。 

限于 水 平 ， 翻 译 中 不 妥 或 错误 之 处 在 所 难免 ， 敬 请 广大 读者 批评 指正 。 
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引言 和 本 书 的 组 织 


本 书 是 套 书 《TCP/IP 详 解 》 的 第 3 卷 ， 这 套 书 的 卷 1 是 [Stevens 1994]， 卷 2 是 [Wright and 
Stevens 1995]。 本 书 分 成 三 个 部 分 ， 每 个 部 分 覆盖 了 不 同 的 内 容 。 

1) TCP 事 务 协议 ， 通 常 叫 作 T/TCP。 这 是 对 TCP 的 扩展 ， 其 设计 目的 是 使 客户 -服务 器 事 
务 更 快 、 更 高 效 和 更 可 靠 。 这 个 目标 的 实现 省 略 了 连接 开始 时 TCP 的 三 次 握手 ， 并 缩 
短 了 连接 结束 时 TIME_WAIT 状 态 的 持续 时 间 。 我 们 将 会 看 到 ， 在 客户 -服务 器 事务 中 ， 
T/TCP 的 性 能 与 UDP 相 当 ， 而且 T/TCP 具 有 可 靠 性 和 适应 性 ， 这 两 点 相对 UDP 来 说 都 是 
很 大 的 改进 。 
事务 是 这 样 定义 的 : 一 个 客户 向 服务 器 发 出 请 求 ， 接 下 来 是 服务 器 给 出 响应 (这 里 的 名 
词 “事务 ”(transaction) 并 非 数 据 库 中 的 事务 处 理 ， 数 据 库 中 的 事务 处 理 有 封锁 、 两 步 
提交 和 回 退 )。 

2) TCP/IP 应 用 ， 特 别 是 HTTP( 超 文本 传输 协议 ，WWW 的 基础 ) 和 NNTP( 网 络 新 闻 传 输 协 
议 Usenet 新 闻 系 统 的 基础 )。 

3) Unix 域 协议 。 这 些 协议 是 所 有 Unix 的 TCP/IP 实 现 中 都 提供 的 ， 在 许多 非 Unix 的 实现 中 
也 有 提供 。 这 些 协议 提供 了 一 种 进程 之 间 通 信 (IPC) 的 手段 ， 采 用 了 与 TCP/IP 中 一 样 的 
插口 9 接口 。 当 客户 与 服务 器 进程 在 同一 主机 上 时 ，Unix 域 协议 通常 要 比 TCP/IP 快 1 倍 。 

第 一 部 分 是 对 T/TCP 的 介绍 ， 又 分 成 两 个 小 部 分 。 第 1~4 章 介绍 协议 ， 并 给 出 了 大 量 实例 来 

说 明 它 们 是 怎样 工作 的 。 这 些 材料 主要 是 对 卷 1 中 24.7 节 的 补充 ， 在 那里 对 T/TCP 只 是 做 了 简单 
的 介绍 。 第 5~12 章 介绍 T/TCP 在 4.4BSD-Lite 网 络 代码 ( 即 卷 2 中 给 出 的 代码 ) 中 的 确切 实现 。 由 于 
最 早 的 T/TCP 实 现 迟 至 1994 年 9 月 才 发 布 , 已 经 是 本 书卷 1 出 版 一 年 以 后 了 , 那 时 卷 2 也 快 完成 了 ， 
因此 TATCP 的 详细 叙述 ， 包 括 诸 多 实例 和 所 有 的 实现 细节 都 只 好 放 在 本 系列 书 的 卷 3 中 了 。 

第 二 部 分 介绍 HTTP 和 NNTP 应 用 ， 是 卷 1 的 第 25~30 章 中 介绍 的 TCP/IP 应 用 的 延续 。 在 卷 

1 出 版 后 的 两 年 里 ， 随 着 Internet 的 发 展 ，HTTP 得 到 了 极 大 的 流行 ， 而 NNTP 的 使 用 则 在 最 近 
的 10 多 年 中 每 年 增长 了 大 约 75%。T/TCP 对 HTTP 来 说 也 是 非常 好 的 ， 可 以 这 样 来 用 TCP:; 在 
少量 数据 传输 中 缩短 连接 时 间 ， 因 为 这 种 时 候 连 接 的 建立 和 拆除 时 间 往 往 占 总 时 间 的 大 头 。 
在 繁忙 的 Web 服 务 器 上 ， 成 千 上 万 个 不 同 而 且 不 断 变化 的 客户 对 HTTP( 因 此 也 对 TCP) 的 高 负 
荷 使 用 ， 也 提供 了 唯一 可 以 对 服务 器 上 确切 的 分 组 进行 考察 的 机 会 (第 14 章 )， 可 以 回顾 卷 1 和 
卷 2 中 给 出 的 TCP/IP 的 许多 特性 。 

第 三 部 分 中 的 Unix 域 协议 原本 是 准备 在 卷 2 中 介绍 的 ， 但 由 于 卷 2 已 多 达 1200 页 9 而 删 


O 插口 对 应 的 原文 是 socket， 现 更 常 译 为 “ 套 接 字 ”。 一 一 编辑 注 
O 指 原 书 英文 版 。 一 一 编辑 注 
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去 了 。 在 名 为 《TCP/IP 详 解 》 这 样 的 套 书 中 夹杂 着 TCP/IP 以 外 的 协议 不 免 令 人 奇怪 ， 但 
Unix 域 协议 几乎 15 年 前 就 已 经 伴随 着 BSD 版 TCP/IP 的 实现 在 4.2BSD 中 发 布 了 。 今 天， 它 
们 在 任何 一 个 从 伯克利 衍生 而 来 的 内 核 中 都 在 频繁 地 使 用 ， 但 它们 的 使 用 往往 “被 掩盖 在 
吾 台 ”， 大 多 数 用 户 不 知道 它们 的 存在 。 除 了 在 从 伯克利 衍生 而 来 的 内 核 中 充当 Unix 管 道 
的 基础 外 ， 它 们 的 另 一 个 大 用 户 是 当 客 户 程序 和 服务 器 程序 在 同一 主机 (典型 的 情况 是 工 
作 站 ) 上 时 的 X Window 系 统 。Unix 域 的 插口 也 用 于 进程 之 间 传 递 描述 符 ， 是 进程 之 间 通 信 
的 一 个 强大 工具 。 由 于 Unix 域 协议 所 用 的 插口 API( 应 用 编程 接口 ) 与 TCP/IP 所 用 的 插口 
API 几 乎 是 相同 的 ，Unix 域 协议 以 最 小 的 代码 变化 提供 了 一 个 简单 的 手段 来 增强 本 地 应 用 
的 性 能 。 

以 上 三 个 部 分 的 每 个 部 分 都 可 以 独立 阅读 。 
读者 

与 这 套 书 的 前 两 卷 一 样 ， 这 一 卷 是 为 所 有 想 要 理解 TCP/IP 如 何 工作 的 人 写 的 : 编写 网 络 
应 用 的 程序 员 ， 负 责 维护 采用 TCP/IP 的 计算 机 网 络 的 系统 管理 员 ， 以 及 在 日 常 工作 中 经 常 与 
TCP/IP 应 用 程序 打交道 的 用 户 。 

第 一 和 第 二 部 分 是 理解 TCP/IP 工 作 原 理 的 基础 。 不 熟悉 TCP/IP 的 读者 应 该 看 看 这 套 书 的 
卷 1， 见 [Stevens 1994]， 以 便 对 TCP/IP 协 议 集 有 一 个 全 面 的 了 解 。 第 一 部 分 的 前 半 部 分 (第 1~4 
章 ，TCP/IP 中 的 概念 和 例子 ) 与 卷 2 无 关 ， 可 以 直接 阅读 。 但 后 半 部 分 (第 5~12 章 ，T/TCP 的 实 
现 ) 则 需要 先 熟悉 4.4 BSD-Lite 网 络 程序 ， 这 些 内 容 在 卷 2 中 介绍 。 

在 整 本 书 中 有 大 量 的 向 前 和 向 后 参考 索引 ， 这 些 参考 索引 是 针对 本 书 的 两 个 主题 A 
及 对 卷 1 和 卷 2 的 内 容 ， 为 想 要 了 解 更 详细 内 容 的 读者 提供 的 。 在 本 书 最 后 有 书 中 用 到 的 所 
有 缩 上 略语 ， 书 中 介绍 的 所 有 结构 、 函 数 和 宏 ( 以 字母 顺序 排列 ) 及 其 介绍 起 始 页 码 的 交 又 索 
引 。 如 果 本 书 引 用 了 卷 2 中 的 定义 ， 则 该 交叉 索引 也 列 出 了 卷 2 中 的 定义 。 


源码 版 权 
本 书 中 引 自 4.4BSD-Lite 版 的 所 有 源码 ( 源 程序 ) 都 包括 下 面 这 样 的 版 权 声明 : 


/* 
Copyright (c) 1982, 1986, 1988, 1990, 1993, 1994 
The Regents of the University of California. All rights reserved. 


* 

* 

* 

* Redistribution and use in source and binary forms, with or without 

* modification, are permitted provided that the following conditions 

* are met: 

* 1. Redistributions of source code must retain the above copyright 

* notice, this list of conditions and the following disclaimer. 

* 2. Redistributions in binary form must reproduce the above copyright 

* notice, this list of conditions and the following disclaimer in the 
* documentation and/or other materials provided with the distribution. 
* 3. All advertising materials mentioning features or use of this software 
* must display the following acknowledgement: 

* This product includes software developed by the University of 

* California, Berkeley and its contributors. 

* 4, Neither the name of the University nor the names of its contributors 


* may be used to endorse or promote products derived from this software 
+ without specific prior written permission. 


* THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS "'AS IS'' AND 
* ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE 

* IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE 
* ARE DISCLAIMED. IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE 

* FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL 
* DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS 

* OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) 

* HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT 
* LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY 
* OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF 

* SUCH DAMAGE. 

£y. 


第 6 章 路 由 表 的 源码 则 包括 下 面 这 样 的 版 权 声明 : 


/* 
* Copyright 1994, 1995 Massachusetts Institute of Technology 


* Permission to use, copy, modify, and distribute this software and 
* its documentation for any purpose and without fee is hereby 

* granted, provided that both the above copyright notice and this 

* permission notice appear in all copies, that both the above 

* copyright notice and this permission notice appear in all 

* supporting documentation, and that the name of M.I.T. not be used 
* in advertising or publicity pertaining to distribution of the 

* software without specific, written prior permission. M.I.T. makes 
* no representations about the suitability of this software for any 
* purpose. It is provided "as is" without express or implied 

* warranty. 


* THIS SOFTWARE IS PROVIDED BY M.I.T. ''AS IS''. M.I.T. DISCLAIMS 

* ALL EXPRESS OR IMPLIED WARRANTIES WITH REGARD TO THIS SOFTWARE, 

* INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF 

* MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE. IN NO EVENT 
* SHALL M.I.T. BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, 

* SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT 

* LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF 

* USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND 
* ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, 
* OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT 
* OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF 
* SUCH DAMAGE. 
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印刷 惯例 


当 需 要 显示 交互 的 输入 和 输出 信息 时 ， 将 用 黑体 表示 键盘 输入 ， 而 计算 机 输出 则 用 
Courier 体 ， 并 用 中 文 宋体 做 注释 。 


sun $ telnet www.aw.com 80 连接 到 HTTP 服 务 器 
Trying 192.207.117.2... 本 行 和 下 一 行 由 Teinet 服 务 器 输出 
Connected to aw.com. 


书 中 总 是 把 系统 名 作为 命令 解释 程序 提示 符 的 一 部 分 (例如 sun)， 以 说 明 命令 是 在 哪个 主 
机 上 执行 的 。 在 正文 中 引用 的 程序 名 通常 都 是 首 字母 大 写 ( 如 Telnet 和 Tecpdump)， 以 避免 过 多 
的 字体 形式 。 
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在 整 本 书 中 ， 我 们 会 使 用 这 种 缩 进 格式 的 附加 说 明 来 描述 实现 细节 或 历史 
观点 。 


W. Richard Stevens 

图 森 ， 亚 利 桑 那 
1995 年 11 月 
rstevensGnoao.edu 


http://www.noao.edu/-rstevens 
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第 1 章 T/TCP 概 述 


1.1 概述 


本 章 首先 介绍 客户 一 服务 器 事务 概念 。 我 们 从 使 用 UDP 的 客户 一 服务 器 应 用 开始 ， 这 是 最 
简单 的 情形 。 接 着 我 们 编写 使 用 TCP 的 客户 和 服务 器 程序 ， 并 由 此 考察 两 台 主机 间 交 互 的 
TCP/IP 分 组 。 然 后 我 们 使 用 T/TCP， 证 明 利用 T/TCP 可 以 减少 分 组 数 ， 并 给 出 为 利用 T/TCP 需 
要 对 两 端的 源 代码 所 做 的 最 少 改动 。 

接 下 来 介绍 了 运行 书 中 示例 程序 的 测试 网 络 ， 并 对 分 别 使 用 UDP、TCP 和 T/TCP 的 客户 - 
服务 器 应 用 程序 进行 了 简单 的 时 间 耗 费 比 较 。 我 们 考察 了 一 些 使 用 TCP 的 典型 Internet 应 用 程 
序 ， 看 看 如 果 两 端 都 支持 T/TCP， 将 需要 做 哪些 修改 。 紧 接着 ， 简 要 介绍 了 Internet 协 议 族 中 
事务 协议 的 发 展 历史 ， 概 略 叙 述 了 现 有 的 TATCP 实 现 。 

本 书 全 文 以 及 有 关 T/TCP 的 文献 中 ， 事 务 一 词 的 含义 都 是 指 客户 向 服务 器 发 出 一 个 请 求 ， 
然后 服务 器 对 该 请 求 做 出 应 答 。Internet 中 最 常见 的 一 个 例子 是 ， 客 户 向 域名 服务 器 (DNS) 发 
出 请 求 ， 查 询 域 名 对 应 的 IP 地 址 ， 然 后 域名 服务 器 给 出 响应 。 本 书 中 的 事务 这 个 术语 并 没有 
数据 库 中 的 事务 那样 的 含义 ， 加 锁 、 两 步 提 交 、 回 退 ， 等 等 。 


1.2 UDP 上 的 客户 一 服务 器 


我 们 先 来 看 一 个 简单 的 UDP 客 户 一 服务 器 应 用 程序 的 例子 ， 其 客户 程序 源 代码 如 图 1-1 所 
示 。 在 这 个 例子 中 ， 客 户 向 服务 器 发 出 一 个 请 求 ， 服 务 器 处 理 该 请 求 ， 然 后 发 回 一 个 应 答 。 
; M ———————————— — — udrdli.c 
1 £include "cliserv.h" 
2 int 
3 main(int argc, char *argv[]) 


4 { /* simple UDP client */ 

5 struct sockaddr in serv; 

6 char request [REQUEST], reply[REPLY]; 

7 int sockfd, n; 

8 if (arge !- 2) 

9 err quit("usage: udpcli «IP address of server»"); 
10 if ((sockfd = socket(PF INET, SOCK DGRAM, 0)) < 0) 
11 err sys("socket error"); 

12 memset(&serv, 0, sizeof(serv)); 

13 serv.sin family - AF INET; 

14 serv.sin addr.s addr = inet addr(argv[1]):; 
15 serv.sin port - htons(UDP SERV PORT); 


图 1-1 UDP 上 的 简单 客户 程序 
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16 /* form request[] ... */ 

17 if (sendto(sockfd, request, REQUEST, 0, 

18 (SA) &serv, sizeof(serv)) !- REQUEST) 
19 err sys("sendto error"); 

20 if ((n = recvfrom(sockfd, reply, REPLY, O0, 

21 (SA) NULL, (int *) NULL)) < 0) 
22 err sys("recvfrom error"); 

23 /* process "n" bytes of reply[] ... */ 

24 exit(0); 

25 ) 


udpcli.c 
图 1-1 (5) 
本 书 中 所 有 源 代 码 的 格式 都 是 这 样 。 每 一 非 空 行 前 面 都 标 有 行 号 。 正 文中 叙述 
某 段 源 代码 时 ， 这 段 源 代码 的 起 始 和 结束 行 号 标记 于 正文 段落 的 左边 ， 如 下 面 的 正 
文 所 示 。 有 时 这 些 段 落 前 面 会 有 一 小 段 说 明 ， 对 所 描述 的 源 代码 进行 概要 说 明 。 源 
代码 段 开 头 和 结尾 处 的 水 平 线 标明 源 代码 段 所 在 的 文件 名 。 这 些 文件 名 通常 部 是 指 
我 们 在 1.9 节 中 将 介绍 的 4.4 版 BSD-Lite 中 发 布 的 文件 。 
我 们 来 讨论 这 个 程序 的 一 些 有 关 特 性 ， 但 不 详细 描述 插口 函数 ， 因 为 我 们 假设 读者 对 这 
些 函 数 有 一 些 基本 的 认识 。 关 于 插口 函数 的 细节 在 参考 书 [Stevens 1990] 的 第 6 章 中 可 以 找到 。 
图 1-2 给 出 了 头 文件 cliserv.h。 
1. 创建 UDP 插口 
10-11 socket 国 数 用 于 创建 一 个 UDP 插口 ， 并 将 一 个 非 负 的 插口 描述 符 返 回 给 调用 进程 。 
出 错 处 理 函 数 err_sys 参 见 参 考 书 [Stevens 1992] 的 附录 B.2。 这 个 函数 可 以 接受 任意 数目 的 
参数 ， 但 要 用 vsprintf 函 数 对 它们 格式 化 ， 然 后 这 个 函数 会 打印 出 系统 调用 所 返回 的 
errno 值 所 对 应 的 Unix 出 错 信息 ， 然 后 终止 进程 。 
2. 填写 服务 器 地 址 
12-15 首先 用 memset 函数 将 Internet 插 口 地 址 结构 清 零 ,然后 填 入 服务 器 的 IP 地 址 和 端口 号 。 
为 简明 起 见 ， 我 们 要 求 用 户 在 程序 运行 中 通过 命令 行 输 入 一 个 点 分 十 进 制 数 形式 的 IP 地 址 
(argv[1])。 服 务 器 端口 号 (UDP_SERV_PORT) 在 头 文件 cliserv.h 中 用 #define 定 义 , 在 
本 章 的 所 有 程序 首部 中 都 包含 了 该 头 文件 。 这 样 做 是 为 了 使 程序 简洁 ， 并 避免 使 调用 
gethostbyname 和 getservbyname 国 数 的 源 代 码 复 杂 化 。 
3. 构造 并 向 服务 器 发 送 请 求 
16-19 ”客户 程序 构造 一 个 请 求 (只 用 一 行 注释 来 表示 )， 并 用 sendto 函 数 将 其 发 出 ， 这 样 就 
有 一 个 UDP 数据 报 发 往 服务 器 。 同 样 是 为 了 简明 起 见 ， 我 们 假设 请 求 (REQUEST) 和 应 答 
(REPLY) 的 报 文 长 度 为 固定 值 。 实 用 的 程序 应 当 按照 请 求 和 应 答 的 最 大 长 度 来 分 配 缓存 空间 ， 
但 实际 的 请 求 和 应 答 报 文 长 度 是 变化 的 ， 而 且 一 般 都 比较 小 。 
4. 读 取 和 处 理 服务 器 的 应 答 
20-23 调用 recvfrom 函 数 将 使 进程 阻塞 ( 即 置 为 睡眠 状态 )， 直 至 收 到 一 个 数据 报 。 接 着 客 
户 进程 处 理应 答 ( 用 一 行 注释 来 表示 )， 然 后 进程 终止 。 
由 于 recvfrom 沪 数 中 没有 超时 机 制 ， 请 求 报 文 或 应 答 报 文中 任何 一 个 丢失 都 将 
造成 该 进程 永久 挂 起 。 事 实 上 ，UDP 客 户 一 服务 器 应 用 的 一 个 基本 问题 就 是 对 现实 世 
界 中 的 此 类 错误 缺少 健壮 性 。 在 本 节 的 末尾 将 对 这 个 问题 做 更 详细 的 讨论 。 
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在 头 文 件 cliserv.h 中 ,我 们 将 SA 定义 为 struct sockaddr*, ， 即 指向 一 般 
的 插口 地 址 结构 的 指针 。 每 当 有 一 个 插口 函数 需要 一 个 指向 插口 地 址 结构 的 指针 时 ， 
该 指针 必须 被 置 为 指向 一 个 一 般 性 插口 地 址 结构 的 指针 。 这 是 由 于 插口 函数 先 于 
ANSI C 标 准 出 现 ， 在 20 世 纪 80 年 代 早 期 开发 插口 函数 的 时 候 ，voidx( 空 类 型 ) 指 针 
类 型 尚 不 可 用 。 问 题 是 ,“struct sockaddr*” 总 共有 17 个 字符 ， 这 经 常 使 这 一 
行 源 代码 超出 屏幕 (或 书本 页 面 ) 的 右边 界 ， 因 此 我 们 将 其 缩写 成 SRA。 这 个 缩写 是 从 
BSD 内 核 源 代码 中 借用 过 来 的 。 


图 1-2 给 出 了 在 本 章 所 有 程序 中 都 包含 的 头 文件 cliserv.h。 


cliserv.h 
1 /* Common includes and defines for UDP, TCP, and T/TCP 
2 * clients and servers */ 
3 &include «sys/types.h» 
4 $include «sys/socket.h» 
5 $&include «netinet/in.h» 
6 *include «arpa/inet.h» 
7 *include «stdio.h» 
8 #include <stdlib.h> 
9 #include <string.h> 
10 #include <unistd.h> 
11 #define REQUEST 400 /* max size of request, in bytes */ 
12 #define REPLY 400 /* max size of reply, in bytes */ 
13 #define UDP_SERV_PORT 7777 /* UDP server's well-known port */ 
14 4define TCP SERV PORT 8888 /* TCP server's well-known port */ 
15 4define TTCP SERV PORT 9999 /* T/TCP server's well-known port */ 
16 /* Following shortens all the type casts of pointer arguments */ 
17 4&define SA struct sockaddr * 
18 void err quit(const char *,...); 
19 void err sys(const char *,...); 
20 int read stream(int, char *, int); : 
clisero.h 
图 1-2 本 章 各 程序 中 均 包 含 的 头 文件 cliserv.h 
图 1-3 给 出 了 相应 的 UDP 服务 器 程序 。 
udpserv.c 
1 £&include "cliserv.h" 
2 int 
3 main() 
4t /* simple UDP server */ 
5 struct sockaddr in serv, cli; 
6 char request[REQUEST], reply[REPLY]; 
7 int sockfd, n, clilen; 
8 if ((sockfd = socket(PF INET, SOCK DGRAM, 0)) < 0) 
9 err sys("socket error"); 
10 memset(&serv, 0, sizeof(serv)); 
11 serv.sin family - AF INET; 
12 serv.sin addr.s addr - htonl(INADDR ANY); 
13 serv.sin port - htons(UDP SERV PORT); 


图 1-3 与 图 1-1 的 UDP 客户 程序 对 应 的 UDP 服务 器 程序 
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14 if (bind(sockfd, (SA) &serv, sizeof(serv)) < 0) 
15 err sys("bind error"); 
16 fot (::) f 
ay clilen - sizeof(cli); 
18 if ((n = recvfrom(sockfd, request, REQUEST, 0, 
19 (SA) &cli, &clilen)) < 0) 
20 err sys("recvfrom error"); 
21 /* process "n" bytes of request[] and create reply[] ... */ 
22 if (sendto(sockfd, reply, REPLY, O0, 
23 (SA) &cli, sizeof(cli)) !- REPLY) 
24 err sys("sendto error"); 
25 ) 
26 ) 
udpserv.c 
图 1-3 (5) 


5. 创建 UDP 插口 和 绑 定 本 机 地 址 
8-15 调用 socket 国 数 创建 一 个 UDP 插口 ， 并 在 其 Internet 播 口 地 址 结构 中 填 人 服务 器 的 本 
机 地 址 。 这 里 本 机 地 址 设置 为 通配符 (INADDR_ANY)， 这 意味 着 服务 器 可 以 从 任何 一 个 本 机 
接口 接收 数据 报 (假设 服务 器 是 多 宿主 的 ， 即 可 以 有 多 个 网 络 接口 )。 端 口号 设 为 服务 器 的 知名 
端口 (UDP_SERV_PORT)， 该 常量 也 在 前 面 讲 过 的 头 文件 cliserv.h 中 定义 。 本 机 IP 地 址 和 
知名 端口 用 bind 国 数 绑 定 到 插口 上 。 

6. 处 理 客户 请 求 
16-25 接 下 来 ， 服 务 器 程序 就 进入 一 个 无 限 循环 : 等 待 客户 程序 的 请 求 到 达 (recvfrom)， 
处 理 该 请 求 (我 们 只 用 一 行 注释 来 表示 处 理 动作 )， 然 后 发 出 应 答 (sendto)。 

这 只 是 最 简单 的 UDP 客 户 一 服务 器 应 用 。 实 际 中 常见 的 例子 是 域名 服务 系统 (DNS)。DNS 
客户 ( 称 作 解 析 器 ) 通 常 是 一 般 客 户 应 用 程序 (例如 ，Telnet 客 户 、FTP 客 户 或 WWW 浏 览 器 ) 的 一 
个 部 分 。 解 析 器 向 DNS 服务 器 发 出 一 个 UDP 数据 报 ， 查 询 某 一 域名 对 应 的 卫 地 址 。 服 务 器 发 
回 的 应 答 通常 也 是 一 个 UDP 数据 报 。 

如 果 观 察 客户 向 服务 器 发 送 请 求 时 双方 交换 的 分 组 ， 我 们 就 会 得 到 图 1-4 这 样 的 时 序 图 ， 
页 面 上 时 间 自 上 而 下 递增 。 服务 器 程序 先 启动 ， 其 行为 过 程 给 在 图 1-4 的 右 半 部 ， 客 户 程 序 稍 
后 启动 。 

我 们 分 别 来 看 客户 和 服务 器 程序 中 调用 的 函数 及 其 相应 内 核 执 行 的 动作 。 在 对 socket 函 
数 的 两 次 调用 中 ， 上 下 紧 挨 着 的 两 个 箭头 表示 内 核 执行 请 求 的 动作 并 立即 返回 。 在 调用 
sendto 国 数 时 ， 尽 管内 核 也 立即 返回 ， 但 实际 上 已 经 发 出 了 一 个 UDP 数据 报 。 为 简明 起 见 ， 
我 们 假设 客户 程序 的 请 求 和 服务 器 程序 的 应 答 所 生成 的 IP 数 据 报 的 长 度 都 小 于 网 络 的 最 大 传 
输 单 元 (MTU)，IP 数 据 报 不 必 分 段 。 

在 这 个 图 中 ， 有 两 次 调用 recvfrom 函 数 使 进程 睡 卢 ， 直 到 有 数据 报到 达 才 被 唤醒 。 我 
们 把 内 核 中 相应 的 例 程 记 为 sleep 和 wakeup。 

最 后 ， 我 们 还 在 图 中 标 出 了 事务 所 耗费 的 时 间 。 图 1-4 的 左 侧 标示 的 是 客户 端 测 得 的 事务 
时 间 : 从 客户 发 出 请 求 到 收 到 服务 器 的 应 答 所 经 历 的 时 间 。 组 成 这 段 事务 时 间 的 数值 标 在 图 
的 右 侧 : RTT + SPT， 其 中 RTT 是 网 络 往 返 时 间 ，SPT 是 服务 器 处 理 客户 请 求 的 时 间 。UDP 客 
户 一 服务 器 事务 的 最 短 时 间 就 是 RTT + SPT。 
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图 1-4 UDP 客户 -服务 器 事务 的 时 序 图 


尽管 没有 明确 说 明 ， 但 我 们 已 经 假设 从 客户 到 服务 器 的 路 径 需要 内 RTT 时 间 ， 近 
回 的 路 径 又 需 力 RIT 时 间 。 但 实际 情况 并 非 总 是 如 此 。 据 对 大 约 600 条 Internet 路 径 的 
研究 [Paxson 1995b] 发 现 : 30% 的 路 径 呈 现 明显 的 不 对 称 性 ， 这 说 明 两 个 方向 上 的 路 
由 经 过 了 不 同 的 站 点 。 


我 们 的 UDP 客 户 一 服务 器 看 起 来 非常 简洁 (每 个 程序 只 有 大 约 30 行 有 关 网 络 的 源 代码 )， 
但 在 实际 环境 中 应 用 还 不 够 健壮 。 由 于 UDP 是 不 保证 可 靠 的 协议 ， 数 据 报 可 能 会 丢失 、 失 序 
或 重复 ， 因 此 实用 的 应 用 程序 必须 处 理 这 些 问题 。 这 通常 是 在 客户 程序 调用 recvfrom 时 设 
置 一 个 超时 定时 器 ， 用 以 检测 数据 报 的 丢失 ， 并 重 传 请 求 。 如 果 要 使 用 超时 定时 器 ， 客 户 程 
序 就 要 测量 RTT 并 动态 更 新 ， 因 为 互联 网 上 的 RTT 会 在 很 大 范围 内 变化 ， 并 且 变 化 很 快 。 但 如 
果 是 服务 器 的 应 答 丢 失 ， 而 不 是 请 求 ， 那 么 服务 器 就 要 再 次 处 理 同 一 个 请 求 ， 这 可 能 会 给 某 
些 服务 带 来 问题 。 解 决 这 个 问题 的 办 法 之 一 是 ， 让 服务 器 将 每 个 客户 最 近 一 次 请 求 的 响应 暂 
存 起 来 ， 必 要 时 重 传 这 个 应 答 ， 而 不 需要 再 次 处 理 这 个 请 求 。 最 后 ， 典 型 的 情况 是 ， 客 户 向 
服务 器 发 送 的 每 个 请 求 中 都 有 一 个 不 同 的 标识 ， 服 务 器 把 这 个 标识 在 响应 中 传 回 来 ， 使 客户 
能 把 请 求 和 响应 匹配 起 来 。 在 参考 书 [Stevens 1990] 的 8.4 节 中 给 出 了 UDP 上 的 客户 -服务 器 处 
理 这 些 问题 的 源 代 码 细节 ， 但 这 将 在 程序 中 增加 大 约 500 行 源 代 码 。 

一 方面 ， 许 多 UDP 应 用 程序 都 通过 执行 所 有 这 些 额 外 步骤 (超时 机 制 、RITT 值 测量 、 请 求 
标识 ， 等 等 ) 来 增加 可 靠 性 ， 另 一 方面 ， 随 着 新 的 UDP 应 用 程序 不 断 出 现 ， 这 些 步骤 也 在 不 断 
地 推陈出新 。 参 考 书 [Patridge 1990b] 中 指出 ,“ 为 了 开发 “可 靠 的 UDP 应 用 程序 ， 你 要 有 状 
态 信 息 (序列 号 、 重 传 计数 器 和 往返 时 间 估 计 器 )， 原 则 上 你 要 用 到 当前 TCP 连 接 块 中 的 全 部 信 
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息 。 因 此 ， 构 筑 一 个 “可 靠 的 UDP ， 本 质 上 和 开发 TCP 一 样 难 "。 

有 些 应 用 程序 并 不 实现 上 面 所 述 的 所 有 步骤 : 例如 在 接收 时 使 用 超时 机 制 ， 但 并 不 测量 
RTT 值 ， 当 然 更 不 会 动态 地 更 新 RTT 值 。 这 样 ， 当 应 用 程序 从 一 个 环境 (比如 局 域 网 ) 移 植 到 另 一 
个 环境 (比如 广域网 ) 中 应 用 时 ， 就 可 能 会 引发 一 些 问题 。 比 较 好 的 解决 办 法 是 用 TCP 而 不 是 用 
UDP， 这 样 就 可 以 利用 TCP 提 供 的 所 有 可 靠 传输 特性 。 但 是 这 种 办 法 会 使 客户 端 测 得 的 事务 时 
间 由 RTT + SPT 增 加 到 2 x RTT + SPT( 见 下 一 他)， 而 且 还 会 大 大 增加 两 个 系统 之 间 交 换 的 分 组 数 
目 。 对 付 这 些 新 的 问题 也 有 一 个 办 法 ， 即 用 TVTCP 取 代 TCP， 我 们 将 在 1.4 节 中 对 此 进行 讨论 。 


1.3 TCP 上 的 客户 一 服务 器 
下 一 个 例子 是 TCP 上 的 客户 一 服务 器 事务 应 用 。 图 1-5 给 出 了 客户 程序 。 


tcpcli.c 

1 #include "cliserv.h" 

2 int 

3 main(int argc, char *argv[]l) 

4 { /* simple TCP client */ 

5 struct sockaddr in serv; 

6 char request[REQUEST], reply[REPLY]; 

7 int sockfd, n; 

8 if (argo t= 2) 

9 err quit("usage: tcpcli «IP address of server»"); 

10 if ((sockfd = socket(PF INET, SOCK STREAM, 0)) < 0) 

Ti err sys("socket error"); 

12 memset(&serv, 0, sizeof(serv)); 

13 serv.sin family = AF INET; 

14 Serv.sin addr.s addr = inet addr(argv[1]); 

15 Serv.sin port = htons(TCP SERV PORT); 

16 if (connect(sockfd, (SA) &serv, sizeof(serv)) < 0) 

17 err sys("connect error"); 

18 /* form request[] ... */ 

19 if (write(sockfd, request, REQUEST) !- REQUEST) 

20 err sys("write error"); 

21 if (shutdown(sockfd, 1) « 0) 

22 err sys("shutdown error"); 

23 if ((n = read stream(sockfd, reply, REPLY)) < 0) 

24 err sys("read error"); 

25 /* process "n" bytes of reply[] ... */ 

26 exit(0); 

27 } 2 
tcpcli.c 


图 1-5 TCP 事 务 的 客户 程序 


1. 创建 TCP 插 口 和 连接 到 服务 器 
10-17 调用 socket 国 数 创建 一 个 TCP 插 口 ， 然 后 在 Internet 揪 口 地 址 结构 中 填 和 服务 器 的 卫 
地 址 和 端口 号 。 对 connect 函 数 的 调用 启动 TCP 的 三 次 握手 过 程 ， 在 客户 和 服务 器 之 间 建 立 
起 连接 。 卷 1 的 第 18 章 给 出 了 TCP 连 接 建 立 和 释放 过 程 中 交换 分 组 的 详细 情况 。 

2. 发 送 请 求 和 半 关 闭 连接 
19-22 客户 的 请 求 是 用 write 函 数 发 给 服务 器 的 。 之 后 客户 调用 shutdown 函 数 (函数 的 第 2 
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个 参数 为 1) 关 闭 连接 的 一 半 ， 即 数据 流 从 客户 向 服务 器 的 方向 。 这 就 告知 服务 器 客户 的 数据 
已 经 发 完了 : 从 客户 端 向 服务 器 传递 了 一 个 文件 结束 的 通知 。 这 时 有 一 个 设置 了 FIN 标 志 的 
TCP 报 文 段 发 给 服务 器 。 客 户 此 时 仍然 能 够 从 连接 中 读 取 数据 一 一 只 关闭 了 一 个 方向 的 数据 
流 。 这 就 叫 作 TCP 的 半 关 闭 (half-close)。 卷 1 的 18.5 节 给 出 了 有 关 细 节 。 
3. 读 取 应 答 

23-24 读 取 应 答 是 由 函数 read_stream 完 成 的 ， 如 图 1-6 所 示 。 由 于 TCP 是 一 个 面向 字 节 
流 的 协议 ， 没 有 任何 形式 的 记录 定 界 符 ， 因 而 从 服务 器 端 TCP 传 回 的 应 答 可 能 会 包含 在 多 个 
TCP 报 文 段 中 。 这 也 就 可 能 会 需要 多 次 调用 read 函 数 才能 传递 给 客户 进程 。 而 且 我 们 知道 ， 
当 服 务 器 发 送 完 应 答 后 就 会 关闭 连接 ， 使 得 TCP 向 客户 端 发 送 一 个 带 FIN 的 报 文 段 ， 在 read 
函数 中 返回 一 个 文件 结束 标志 (返回 值 为 0)。 为 了 处 理 这 些 细节 问题 ,在 read_stream 函 数 
中 不 断 调用 read 函 数 直 到 接收 缓存 满 或 者 read 函 数 返回 一 个 文件 结束 标志 。read_stream 
函数 的 返回 值 就 是 读 取 到 的 字 节 数 。 


readstream.c 


1 #include "cliserv.h" 

2 int 

3 read stream(int fd, char *ptr, int maxbytes) 

4 ( 

5 int nleft, nread; 

6 nleft - maxbytes; 

7 while (nleft > 0) ( 

8 if ((nread = read(fd, ptr, nleft)) < 0) 

B return (nread); /* error, return < 0 */ 
10 else if (nread == 0) 
11 break; /* EOF, return #bytes read */ 
12 nleft -- nread; 
13 ptr += nread; 
14 } 
15 return (maxbytes - nleft); /* return >= 0 */ 
16 ) 


readstream.c 


图 1-6 read stream 函数 


还 有 一 些 别 的 方法 可 以 在 类 似 TCP 这 样 的 流 协 议 中 给 记录 定 界 。 许 多 Internet 应 
用 程序 (FTP、SMTP、HTTP 和 NNTP) 使 用 回 车 和 换行 符 来 标记 记录 的 结束 。 其 他 一 
些 应 用 程序 (DNS、RPC) 则 在 每 个 记录 的 前 面 加 上 一 个 定 长 的 记录 长 度 字 段 。 在 我 们 
的 例子 中 ， 利 用 了 TCP 的 文件 结束 标志 (FIN)， 因 为 在 每 次 事务 中 客户 只 向 服务 器 发 
送 一 个 请 求 ， 而 服务 器 也 只 发 回 一 个 应 答 。FTP 也 在 其 数据 连接 中 采用 这 项 技术 ， 告 
知 对 方 文件 已 经 结束 。 


图 1-7 给 出 的 是 TCP 的 服务 器 程序 。 


tcpserv.c 
1 £include "cliserv.h" 
2 int 
3 main() 
4 ( /* simple TCP server */ 
5 struct sockaddr. in serv, cli; 
6 char request[REQUEST], reply[REPLY]; 


图 1-7 TCP 事 务 的 服务 器 程序 
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7 int listenfd, sockfd, n, clilen; 
8 if ((listenfd = socket(PF INET, SOCK STREAM, 0)) < 0) 
9 err sys("socket error"); 
10 memset(&serv, 0, sizeof(serv)); 
Id serv.sin family - AF INET; 
12 serv.sin addr.s addr = htonl(INADDR ANY); 
13 serv.sin port - htons(TCP SERV PORT); 
14 if (bind(listenfd, (SA) &serv, sizeof(serv)) « 0) 
15 err sys("bind error"); 
16 if (listen(listenfd, SOMAXCONN) « 0) 
17 err sys("listen error"); 
18 for (5; 1 
19 clilen = sizeof(cli); 
20 if ((sockfd - accept(listenfd, (SA) &cli, &clilen)) « 0) 
21 err sys("accept error"); 
22 if ((n = read stream(sockfd, request, REQUEST)) < 0) 
23 err sys("read error"); 
24 /* process "n" bytes of request[] and create reply[] ... */ 
25 if (write(sockfd, reply, REPLY) !- REPLY) 
26 err sys("write error"); 
27 close(sockfd); 
28 ) 
29. } 
tcpserv.c 
图 1-7 (25) 
4. 创建 监听 用 TCP 插 口 


8-17 用 于 创建 一 个 TCP 插 口 ， 并 将 服务 器 的 知名 端口 绑 定 到 该 插口 上 。 与 UDP 服务 器 一 样 ， 
TCP 服 务 器 也 将 通配符 作为 其 IP 地 址 。 调 用 1isten 函 数 将 新 创建 的 插口 作为 监听 插口 ， 用 于 
等 待 客户 端 发 起 的 连接 。1isten 国 数 的 第 二 个 参数 规定 了 人 允许 的 最 大 挂 起 连接 数 ， 内 核 要 为 
该 插口 将 这 些 连接 进行 排队 处 理 。 
SOMRXCONN 在 头 文件 <sys/socket .h> 中 定义 。 其 数值 过 去 一 直 都 取 5， 但 现在 
有 一 些 比 较 新 的 系统 将 其 定 为 10。 对 于 一 些 很 党 忙 的 服务 器 (例如 Web 服 务 器 )， 已 经 发 
现 需 要 取 更 大 的 值 ， 比 如 256 或 1024。 在 14.5 节 中 我 们 还 将 对 此 问题 进行 更 多 的 讨论 。 
5. 接受 连接 和 处 理 请 求 
18-28 服务 器 进程 调用 accept 国 数 后 就 进入 阻塞 状态 ， 直 到 有 客户 进程 调用 connect 国 
数 而 建立 起 一 个 连接 。 函 数 accept 返 回 一 个 新 的 插口 描述 符 sockfd， 代 表 与 客户 和 服务 器 
之 间 所 建立 的 连接 。 服 务 器 调用 函数 read_stream 读 取 客 户 的 请 求 ( 图 1-6)， 再 调用 write 
函数 向 客户 发 送 应 答 。 
这 是 一 个 反复 循环 的 服务 器 : 把 当前 的 客户 请 求 处 理 完毕 后 才 又 调用 accept 去 
接受 另 一 个 客户 的 连接 。 并 发 服务 器 可 以 并 行 地 处 理 多 个 客户 请 求 ( 即 同 时 处 理 )。 在 
Unix 的 主机 上 实现 并 发 服务 器 的 常用 技术 是 : 在 accept 函 数 返回 后 ， 调 用 Unix 的 
fork 了 有 函数 创建 一 个 子 进 程 ， 由 子 进程 处 理 客 户 的 请 求 ， 父 进程 则 紧 接 着 又 调用 
accept 去 接受 别 的 客户 连接 。 实 现 并 发 服务 器 的 另 一 项 技术 是 为 每 个 新 建立 的 连接 
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创建 一 个 线程 ( 叫 作 轻 量 进程 )。 为 了 避免 那些 与 网 络 无 关 的 进程 控制 函数 把 例子 摘 复 
杂 ， 我 们 只 给 出 了 反复 循环 的 服务 器 。 参 考 书 [Stevens 1992] 的 第 4 章 讨论 比较 了 循环 
服务 器 和 并 发 服务 器 。 
还 有 第 三 个 选择 是 采用 预 分 支 服务 器 。 即 服务 器 启动 时 连续 调用 fork 函 数 数 次 ， 
并 让 每 个 子 进程 都 在 同一 个 监听 插口 描述 符 上 调用 accept 函 数 。 这 种 办 法 节省 了 为 
每 个 客户 的 连接 请 求 临时 创建 子 进程 的 时 间 开 销 ， 这 对 于 人 繁 忙 的 服务 器 来 说 ， 是 很 
大 的 节省 。 有 些 HTTP 服 务 器 就 采用 了 这 项 技术 。 
图 1-8 给 出 了 TCP 上 客户 一 服务 器 事务 的 时 序 图 。 我 们 首先 注意 到 ， 与 图 1-4 中 UDP 上 的 事 
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图 1-8 TCP 上 客户 一 服 务 器 事务 的 时 序 图 
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务 相 比 ， 网 络 上 交换 的 分 组 数 增加 了 : TCP 上 事务 的 分 组 数 是 9， 而 UDP 上 的 则 是 2。 采 用 
TCP 后 ， 客 户 端 测量 的 事务 时 间 是 不 少 于 2 x RTT + SPT。 通 常 ， 中 间 三 个 从 客户 到 服务 器 的 
报 文 段 ( 对 服务 器 SYN 的 ACK、 请 求 以 及 客户 的 FIN) 是 紧密 相连 的 ， 后 面 两 个 从 服务 器 到 客户 
的 报 文 段 (服务 器 的 应 答 和 FIN) 也 是 紧密 相连 的 。 这 使 实际 事务 时 间 比 从 图 1-8 中 看 到 的 更 接近 
2xRIT+ SPT, 

本 例 中 多 出 来 的 一 个 RTT 源 于 TCP 连 接 建 立 的 时 间 开 销 : 图 1-8 中 前 两 个 报 文 段 所 花 的 时 
间 。 如 果 TCP 可 以 把 建 连 和 发 送 客户 数据 以 及 客户 FIN( 图 中 客户 端 发 出 的 前 四 个 报 文 段 ) 合 起 
来 ,再 把 服务 器 的 应 答 和 FIN 合 起 来 ,事务 时 间 就 又 可 以 回 到 RTT + SPT 了 ， 这 与 UDP 的 一 样 。 
事实 上 ， 这 就 是 T/TCP 中 采用 的 基本 技巧 。 

6. TCP 的 TIME_WAIT 状 态 

TCP 要 求 ， 首 先 发 出 FIN 的 一 端 (我 们 的 例子 中 是 客户 )， 在 通信 双方 都 完全 关闭 连接 之 后 ， 
仍然 要 保持 在 TIME_WAIT 状 态 直至 两 倍 的 报 文 段 最 大 生存 时 间 (MSL)。MSL 的 建议 值 是 120 
秒 ， 也 即 处 于 TIME_WATE 状 态 要 达到 4 分 钟 。 当 连接 处 于 TIME_WAIT 状 态 时 ， 同 一 连接 ( 即 
客户 卫 地 址 和 端口 号 ， 以 及 服务 器 下 地 址 和 端口 号 这 4 个 值 相同 ) 不 能 重复 打开 (我 们 在 第 4 章 中 
还 要 更 多 地 讨论 TIME_WAIT 状 态 )。 


许多 基于 伯克利 代码 的 TCP 实 现 ， 在 TIME_WAIT 状 态 的 保持 时 间 仅 仅 为 60 秒 ， 
而 不 是 RFC 1122 [Braden 1989] 中 指定 的 240 秒 。 在 本 书 的 所 有 计算 中 ， 我 们 还 是 假 
定 正确 的 等 待 周期 为 240 秒 。 


在 我 们 的 例子 中 ， 客 户 端 首先 发 出 FIN ， 这 称 为 主动 关闭， 因而 TIME_WAIT 状 态 出 现在 
客户 端 。 在 这 个 状态 延续 期 内 ，TCP 要 为 这 个 已 经 关闭 的 连接 保留 一 定 的 状态 信息 ， 以 便 能 
正确 处 理 那 些 在 网 络 中 延迟 一 段 时 间 、 在 连接 关闭 之 后 到 达 的 报 文 段 。 同 样 ， 如 果 最 后 一 个 
ACK 丢 失 了 ， 服 务 器 将 重 传 FIN， 使 客户 端 重 传 最 后 的 ACK。 

其 他 一 些 应 用 程序 ， 特 别 是 WWW 中 的 HTTP， 要 求 客户 程序 发 送 一 个 专门 的 命令 来 指示 
已 经 将 请 求 发 送 完毕 (而 不 是 像 我 们 的 客户 程序 那样 采用 半 关 闭 连接 的 办 法 )， 接 着 服务 器 就 发 
回应 答 ， 紧 接着 就 是 服务 器 的 FIN。 然 后 客户 程序 再 发 出 FIN。 这 样 做 与 前 面 所 述 的 不 同 之 处 
在 于 ， 现 在 的 TIME_WAIT 状 态 出 现在 服务 器 端 而 不 是 客户 端 。 对 许多 客户 访问 的 繁忙 服务 器 
来 说 ， 需 要 保留 的 状态 信息 会 占用 服务 器 的 大 量 内 存 。 因 此 ， 当 设计 一 个 事务 性 客户 一 服务 
器 应 用 程序 时 ， 让 连接 的 哪 一 端 关 闭 后 进入 TIME_WAIT 状 态 值得 仔细 其 酌 。 我 们 还 将 看 到 ， 
T/TCP 可 以 让 TIME_WAIT 状 态 的 延续 时 间 从 240 秒 减少 到 大 约 12 秒 。 

7. 减少 TCP 中 的 报 文 段 数 

像 图 1-9 所 示 的 那样 , 把 数据 和 控制 报 文 段 合并 起 来 可 以 减少 图 1-8 中 所 示 的 TCP 报 文 段 数 。 
请 注意 ， 这 里 的 第 一 个 报 文 段 中 包含 有 SYN、 数 据 和 FIN ， 而 不 像 图 1-8 中 那样 仅仅 是 SYN。 
类 似 地 ， 服 务 器 的 应 答 和 服务 器 的 FIN 也 可 以 合并 。 虽 然 这 样 的 分 组 序列 也 符合 TCP 的 规定 ， 
但 是 作者 无 法 在 应 用 程序 中 利用 现 有 的 插口 API 使 TCP 产 生 这 样 的 报 文 段 序 列 (因此 才 在 图 1-9 
中 客户 端 产生 第 一 个 报 文 段 时 和 服务 器 端 产 生 最 后 一 个 报 文 段 时 标 上 问号 )， 而 且 据 作 者 所 
知 ， 也 没有 哪 一 个 应 用 程序 确实 生成 了 这 样 的 报 文 段 序 列 。 

值得 一 提 的 是 ， 尽 管 我 们 把 报 文 段 的 数目 由 9 减少 到 了 5， 但 客户 端 观测 的 事务 依然 是 2 x 
RTT + SPT。 这 是 因为 TCP 中 规定 ， 服 务 器 端的 TCP 在 三 次 握手 结束 之 前 不 能 向 服务 器 进程 提 
交 数 据 ( 卷 2 的 27.9 节 说 明了 TCP 是 如 何在 连接 建立 之 前 将 到 达 的 数据 进行 排队 缓存 的 )。 加 上 
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图 1-9 最 少 TCP 事 务 的 时 序 图 


这 种 限制 的 原因 是 服务 器 必须 确信 来 自 客户 的 SYN 是 “新 的 ”， 即 不 是 以 前 某 次 连接 的 SYN 在 
网 络 中 延迟 一 段 时 间 后 到 达 服 务 器 端的 。 确 认 过 程 是 这 样 的 : 服务 器 对 客户 发 送 的 SYN 发 送 
确认 ， 再 发 出 自己 的 SYN， 然 后 等 待 客户 对 该 SYN 的 确认 。 当 三 次 握手 完成 之 后 ， 通 信 双 方 
就 都 知道 对 方 的 SYN 是 新 的 。 由 于 在 三 次 握手 结束 之 前 服务 器 无 法 开始 处 理 客户 的 请 求 ， 故 
分 组 数 的 减少 并 没有 缩短 客户 端 测 得 的 事务 时 间 。 


close 


下 面 这 段 话 引 自 RFC 1185 [Jacobson, Braden, and Zhang 1990] 的 附录 :“ 注 意 : 
使 连接 能 够 尽快 重复 利用 是 早期 TCP 开 发 的 重要 目标 。 之 所 以 有 这 样 的 要 求 是 因为 当 
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时 人 们 和 希望 TCP 既 是 应 用 层 事务 协议 的 基础 ， 同 时 也 是 面向 连接 协议 的 基础 。 当 时 讨 
论 中 其 至 把 既 包 含 SYN 和 FIN 比 特 ， 同 时 又 包含 数据 的 报 文 段 叫 作 “圣诞 树 ” 报 文 段 
和 “Kamikaze( 敢 死 队 )” 报 文 段 。 但 这 种 热情 很 快 就 被 小 了 冷水 ， 因 为 人 们 发 现 ， 三 
次 SYN 担 手 和 FIN 担 手 意 味 着 一 次 数据 交换 至 少 需 要 5 个 分 组 。 而 且 ，TIME_WAIT 
状态 的 延续 说 明 同 一 个 连接 不 可 能 马上 再 次 打开 。 于 是 ， 再 没有 人 在 这 个 领域 做 进 
一 步 的 研究 ， 尽 管 现在 的 某 些 应 用 程序 (比如 简单 邮件 传输 协议 (SMTP)) 经 常会 产生 
很 短 的 会 话 。 人 们 一 般 都 可 以 采用 为 每 个 连接 选用 不 同 的 端口 对 的 办 法 来 避 开 重用 
问题 ”。 

RFC 1379 [Braden 1992b] 中 写 道 :“ 这 些 “Kamikaze( 敢 死 队 )” 报 文 段 不 是 作为 
一 种 支持 的 服务 来 提供 ， 而 是 主要 用 来 搞 垮 其 他 实验 性 的 TCP!1 ” 


作为 一 个 实验 ， 作 者 编写 了 一 个 测试 程序 ， 这 个 程序 把 SYN 与 数据 和 FIN 在 一 个 报 文 段 中 
发 出 去 ， 即 图 1-9 中 的 第 一 个 报 文 段 。 该 报 文 段 发 给 8 个 不 同 版 本 Unix 的 标准 echo 服 务 器 ( 卷 1 的 
1.12 节 )， 再 用 Tcpdump 观 察 所 交换 的 数据 。 其 中 的 7 个 (4.4BSD、AIX 3.2.2, BSD/OS 2.0, 
HP-UX 9.01, IRIX System V.3, SunOS 4.1.3 和 System V Release 4.0) 都 能 正确 处 理 该 报 文 段 ， 
另外 一 个 (Solaris 2.4) 则 把 随 SYN 一 起 传送 的 数据 扔 掉 ， 迫 使 客户 程序 重 传 数据 。 

那 7 个 系统 中 的 报 文 段 序列 与 图 1-9 所 描绘 的 不 尽 相 同 。 当 三 次 担 手 结 束 后 ， 服 务 器 立刻 
就 对 客户 的 数据 和 FIN 发 出 确认 。 另 外 ， 由 于 echo 服 务 器 无 法 把 数据 和 FIN 捆 绑 在 一 起 (图 1-9 
中 的 第 四 个 报 文 段 ) 发 送 ， 结 果 是 发 了 两 个 报 文 段 而 不 只 是 一 个 : 应 答 和 紧 接 其 后 的 FIN。 因 
此 ， 报 文 段 的 总 数 是 7 而 不 是 图 1-9 中 所 示 的 5。 我 们 在 3.7 节 中 会 进一步 讨论 与 非 T/TCP 实 现 的 
兼容 性 问题 ， 并 给 出 一 些 Tcpdump 的 输出 结果 。 

许多 从 伯克利 演变 而 来 的 系统 中 ， 服 务 器 无 法 处 理 接收 到 的 报 文 段 中 只 有 SYN、 

FIN， 而 没有 数据 、ACK 的 情况 。 这 个 bug 使 得 新 创建 的 插口 保持 在 CLOSE_WAIT 状 

态 直到 主机 重新 启动 。 但 这 却 是 一 个 合法 的 T/TCP 报 文 段 : 客户 建立 起 了 一 个 连接 ， 

没有 发 送 任何 数据 ， 然 后 就 关闭 连接 。 


1.4 T/TCP 上 的 客户 一 服务 器 


我 们 的 T/TCP 客 户 一 服务 器 的 源 代码 和 上 一 节 的 TCP 客 户 一 服务 器 的 源 代码 略 有 不 同 ， 以 
便 能 够 利用 T/TCP 的 优势 。 图 1-10 给 出 了 T/TCP 上 的 客户 程序 。 


ttcpcli.c 
1 #include "cliserv.h" 
2 int 
3 main(int argc, char *argv[]) 
4 { /* T/TCP client */ 
5 struct sockaddr in serv; 
6 char request[REQUEST], reply[REPLY]; 
7 int sockfd, n; 
8 if (argc. t= 2) 
9 err quit("usage: ttcpcli «IP address of server»"); 
10 if ((sockfd = socket(PF INET, SOCK STREAM, 0)) < 0) 
lI err sys("socket error"); 


图 1-10 T/TCP 上 的 事务 客户 程序 
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12 memset(&serv, 0, sizeof(serv)); 

13 serv.sin family - AF INET; 

14 serv.sin addr.s addr = inet, addr(argv[1]):; 

15 serv.sin port - htons(TCP SERV PORT); 

16 /* form request[] ... */ 

17 if (sendto(sockfd, request, REQUEST, MSG EOF, 

18 (SA) &serv, sizeof(serv)) !- REQUEST) 

19 err sys("sendto error"); 

20 if ((n = read stream(sockfd, reply, REPLY)) < 0) 

21 err sys("read error"); 

22 /* process "n" bytes of reply[] ... */ 

23 exit(0); 

24 ) i 

ttcpcli.c 
图 1-10 (£X) 

1. 创建 TCP 插 口 
10-15 对 socket 国 数 的 调用 与 TCP 上 的 客户 程序 一 样 ， 在 Internet 插 口 地 址 结构 中 同样 也 填 
入 服务 器 的 耳 地 址 和 端口 号 。 

2. 向 服务 器 发 送 请 求 


17-19 T/TCP 上 的 客户 程序 不 调用 connect 函 数 ， 而 是 直接 调用 标准 的 sendto 函 数 ， 该 函 
数 向 服务 器 发 送 请 求 ， 同 时 与 服务 器 建立 起 连接 。 此 外 ， 我 们 还 用 sendto 函 数 的 第 4 个 参数 
指定 了 一 个 新 的 标志 MSG_EOF， 用 以 告诉 系统 内 核 数 据 已 经 发 送 完毕 。 这 样 做 就 相当 于 图 1-5 
中 的 调用 shutdown 函 数 ， 向 服务 器 发 送 一 个 FIN。MSG_EOF 标 志 是 T/TCP 实 现 中 新 加 入 的 ， 
不 要 把 它 与 MSG_BEOR 标 志 混 请， 后 者 是 基于 记录 的 协议 (比如 OSI 的 运输 层 协议 ) 中 用 来 标志 记 
录 结 束 的。 我 们 将 在 图 1-12 中 看 到 ， 调 用 sendato 国 数 的 结果 是 客户 端的 SYN、 客 户 的 请 求 以 
及 FIN 都 包含 在 一 个 报 文 段 中 发 送出 去 。 换 言 之 ,调用 一 个 sendto 函 数 就 实现 了 connect、 
write 和 shutdown 三 个 函数 的 功能 。 


3. 读 服务 器 的 应 答 
20-21 读 服务 器 的 应 答 还 是 用 read_stzream 国 数 ， 与 前 文 讨论 过 的 TCP 上 的 客户 程序 
一 样 。 

图 1-11 所 示 的 是 TITCP 上 的 服务 器 程序 。 

1 #include "cliserv.h" Opeeróg 

2 int 

3 main() 

4 { /* T/TCP server */ 

5 struct sockaddr in serv, cli; 

6 char request[REQUEST], reply[REPLY]; 

7 int listenfd, sockfd, n, clilen; 

8 if ((listenfd = socket(PF INET, SOCK STREAM, 0)) < 0) 

9 err sys("socket error"); 


图 1-11 T/TCP 上 的 事务 服务 器 程序 
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10 memset(&serv, 0, sizeof(serv)); 
TT serv.sin family - AF INET; 
12 serv.sin addr.s addr = htonl(INADDR, ANY); 
13 serv.sin port - htons(TCP SERV PORT); 
14 if (bind(listenfd, (SA) &serv, sizeof(serv)) < 0) 
15 err sys("bind error"); 
16 if (listen(listenfd, SOMAXCONN) « 0) 
17 err sys("listen error"); 
18 for ($2) f 
19 clilen - sizeof(cli); 
20 if ((sockfd - accept(listenfd, (SA) &cli, &clilen)) « 0) 
21 err sys("accept error"); 
22 if ((n = read stream(sockfd, request, REQUEST)) < 0) 
23 err sys("read error"); 
24 /* process "n" bytes of request[] and create reply[] ... */ 
25 if (send(sockfd, reply, REPLY, MSG EOF) !- REPLY) 
26 err sys("send error"); 
23 close(sockfd); 
28 ) 
29 ) 
ttcpserv.c 
图 1-11 (£X) 


这 个 程序 与 图 1-7 中 TCP 上 的 服务 器 程序 几乎 完全 一 样 : 对 socket 国 数 、bind 国 数 、 
1isten 国 数 、accept 国 数 和 zead_stream 国 数 的 调用 都 一 模 一 样 。 唯 一 的 不 同 在 于 
T/TCP 上 的 服务 器 发 送 应 答 时 调用 的 是 send 函 数 ， 而 不 是 write 函 数 。 这 样 就 可 以 设置 
MSG_EOF 标 志 ， 从 而 可 以 将 服务 器 的 应 答 和 服务 器 的 FIN 合 并 在 一 起 发 送 。 

图 1-12 所 示 的 是 T/TCP 上 客户 一 服务 器 事务 的 时 序 图 。 

T/TCP 上 的 客户 测量 到 的 事务 时 间 和 UDP 上 的 几乎 一 样 (图 1-4):; RTT + SPT。 我 们 估计 
T/TCP 上 的 时 间 会 比 UDP 上 的 时 间 稍 长 一 点 ， 因 为 TCP 需 要 处 理 的 事情 比 UDP 要 多 一 些 ,而 且 
通信 双方 都 要 执行 两 次 read 操 作 分 别 读数 据 和 文件 结束 标志 (而 UDP 环 境 下 双方 都 只 要 调用 
一 次 recvfrom 函 数 即 可 )。 但 是 双方 主机 上 这 一 段 额 外 的 处 理 时 间 比 一 次 网 络 往返 时 间 RTT 
要 小 得 多 (我 们 在 1.6 节 中 给 出 了 一 些 测 试 数据 ， 用 来 比较 UDP、TCP 和 T/TCP 上 的 客户 -服务 器 
事务 的 差别 )。 由 此 我 们 可 以 得 出 结论 : T/TCP 上 的 事务 时 间 要 比 TCP 上 的 事务 小 大 约 一 次 网 
络 往返 时 间 RTT。T/TCP 中 省 下 来 的 这 个 RTT 来 自 于 TAO， 即 TCP 加 速 打开 (TCP Accelerated 
Open)。 这 种 方式 跳 过 了 三 次 握手 的 过 程 。 下 面 两 章 中 我 们 将 说 明 其 实现 方法 ， 在 4.5 节 中 我 
们 还 将 证 明 这 样 做 的 正确 性 。 

UDP 上 的 事务 需要 两 个 分 组 来 传送 ，T/TCP 上 的 事务 需要 3 个 分 组 ， 而 TCP 上 的 事务 则 需 
要 9 个 分 组 (这 些 数字 的 前 提 是 没有 分 组 丢失 )。 因 此 ，T/TCP 不 仅 缩短 了 客户 端的 事务 处 理 时 
间 ， 而 且 也 减少 了 网 络 上 传送 的 分 组 数 。 我 们 希望 减少 网 络 上 的 分 组 数 ， 因 为 路 由 器 往往 受 
限于 它们 可 以 转发 的 分 组 数 ， 而 不 是 每 个 分 组 的 长 度 。 

概括 地 讲 ，T/ATCP 以 一 个 额外 的 分 组 和 可 以 忽略 的 延续 时 间 为 代价 ， 同 时 具有 了 可 靠 性 和 
适应 性 这 两 个 对 网 络 应 用 至 关 重 要 的 特性 。 
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图 1-12 T/TCP 上 客户 一 服务 器 事务 的 时 序 图 


1.5 测试 网 络 


图 1-13 画 出 了 用 于 验证 本 书 所 有 例子 的 测试 网 络 。 

书 中 大 多 数 的 示例 程序 都 运行 在 laptop 和 bsdi 这 两 个 系统 上 ， 它 们 都 支持 T/TCP 协 议 。 
图 1-13 中 所 有 的 IP 地 址 都 属于 B 类 子 网 140.252.0.0。 所 有 主机 的 名 字 都 属于 tuc .noao.edu 
域 。noao 表 示 “ 国 家 光学 空间 观测 站 ”，tuc 表 示 Tucson。 图 中 每 个 方 框 上 部 的 记号 表示 在 
该 系统 运行 的 操作 系统 。 


1.6 时 间 测 量程 序 


我 们 可 以 分 别 测 量 三 种 客户 一 服务 器 事务 的 时 间 ， 并 比较 其 测量 结果 。 我 们 要 对 客户 程序 
做 如 下 改动 : 
。 在 图 1-1 所 示 的 UDP 上 的 客户 程序 中 ， 我 们 在 即将 调用 sendto 函 数 前 和 recvfrom 函 数 
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以 太 网 140.252.13.0 
图 1-13 用 于 验证 本 书 所 有 例子 的 测试 网 络 ， 所 有 下 地 址 都 以 140.252 打 头 


刚刚 返回 后 分 别 读 取 当前 系统 时 间 。 这 两 个 时 间 的 差 值 即 为 客户 端 测 得 的 事务 时 间 。 

。 在 图 1-5 所 示 的 TCP 上 的 客户 程序 中 ， 我 们 在 即将 调用 connect 图 数 前 和 

read_stzream 国 数 刚刚 返回 后 分 别 读 取 当 前 系统 时 间 。 

。 在 图 1-10 所 示 的 T/TCP 上 的 客户 程序 中 ， 我 们 取 当 前 的 系统 时 间 为 即将 调用 senato 国 

数 前 和 read_stream 函 数 刚刚 返回 后 。 

图 1-14 给 出 了 以 14 种 不 同 长 度 的 请 求 和 应 答 分 别 测 得 的 结果 。 客 户 和 服务 器 分 别 为 图 1-13 
中 的 bsdi 和 1laptop。 附 录 A 中 给 出 了 这 些 测量 的 细节 ， 并 分 析 了 影响 结果 的 因素 。 

T/TCP 上 的 事务 时 间 总 是 比 同样 条 件 下 的 UDP 上 的 事务 时 间 要 长 几 毫 秒 (这 个 时 间 差 是 由 
软件 造成 的 ， 会 随 着 计算 机 速度 的 提高 而 缩短 )。T/TCP 协 议 栈 比 UDP 协 议 栈 所 做 的 操作 要 多 
(图 A-8)，T/TCP 上 的 客户 和 服务 器 要 分 别 调用 两 次 read 函 数 ， 而 UDP 上 的 客户 和 服务 器 则 只 
需 分 别 调用 一 次 recvfrom 函 数 。 

TCP 上 的 事务 时 间 总 是 比 相同 条 件 下 T/TCP 上 的 事务 时 间 要 长 大 约 20 ms。 造 成 这 一 结果 
的 部 分 原因 是 : TCP 建 立 连接 时 的 三 次 握手 。 两 个 SYN 报 文 段 的 长 度 是 44 字 节 (20 字 节 的 IP 首 
部 、20 字 节 的 标准 TCP 首 部 和 4 字 节 的 TCP MSS 选 项 )。 这 相当 于 用 户 数据 为 16 字 市 的 Ping; 
从 图 A-3 可 知 ， 其 网 络 往返 时 间 RTT 大 约 为 10 ms。 另 外 10 ms 的 差 值 可 能 是 因为 TCP 协 议 需要 
处 理 额 外 6 个 TCP 报 文 段 造成 的 。 

因此 我 们 可 以 得 出 结论 : T/TCP 上 的 事务 时 间接 近 UDP 上 的 事务 时 间 ， 但 比 后 者 略 大 ， 比 
TCP 上 的 事务 时 间 短 至 少 相 当 于 一 个 44 字 节 报 文 段 的 网 络 往返 时 间 。 

就 客户 端 测 量 的 事务 时 间 而 言 ， 用 T/TCP 取 代 TCP 带 来 的 好 处 依赖 于 RTT 和 SPT 之 间 的 关 
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系 。 比 如 ， 在 一 个 局 域 网 上 的 RTT 为 3 ms( 如 图 A-2)， 服 务 器 的 平均 处 理 时 间 为 500 ms, 352. 
TCP 上 的 事务 时 间 大 约 为 506 ms(2 x RTT+SPT)， 而 T/TCP 的 事务 时 间 则 大 约 为 503 ms。 但 如 
果 是 一 个 网 络 往返 时 间 RTT 为 200 ms 的 广域网 ( 见 14.4 节 )， 服 务 器 处 理 时 间 SPT 的 平均 值 为 100 
ms， 那 么 TCP 上 和 T/TCP 上 的 事务 时 间 就 分 别 为 大 约 500 ms 和 300 ms。 我 们 已 经 看 到 ， 使 用 
T/TCP 所 需 传送 的 网 络 分 组 数 少 (从 图 1-8 和 图 1-12 的 比较 中 看 分 别 是 3 个 和 9 个 )， 因 此 ， 不 管 客 
户 端 所 测 得 的 事务 时 间 减 少 了 多 少 ， 使 用 T/TCP 总 是 能 减少 网 络 分 组 数 。 减 少 网 络 分 组 数 就 
可 以 减少 分 组 丢失 的 概率 ， 而 在 Internet 中 ， 分 组 丢失 对 整个 网 络 的 稳定 性 有 很 大 影响 。 
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1-14 UDP、T/TCP 和 TCP 上 客户 一 服务 器 事务 的 时 序 图 


在 A.3 节 里 ， 我 们 介绍 了 传播 时 延 和 带宽 的 差异 。 这 两 者 都 对 RTT 有 影响 ， 但 是 当 网 络 
变 快 以 后 ， 传 播 时 延 的 影响 就 变 大 了 。 此 外 ， 传 播 时 延 是 我 们 几乎 无 法 控制 的 ， 因 为 它 的 
大 小 取决 于 客户 和 服务 器 之 间 的 信号 传播 距离 及 光 在 介质 中 的 传播 速度 。 于 是 ， 在 网 络 速 
率 越 来 越 快 的 条 件 下 ， 省 下 一 个 RTT 的 时 间 就 显得 尤为 可 贵 ， 使 用 T/TCP 的 好 处 相对 也 就 越 
发 明显 。 

现在 可 以 公开 获得 并 支持 TITCP 的 用 于 测量 网 络 性 能 的 工具 : 
http://www.cup.hp.com/netperf/netperfpage.html 


1.7 应 用 


T/TCP 给 所 有 TCP 上 的 应 用 程序 带 来 的 第 一 个 好 处 就 是 可 以 缩短 TTME_WAIT 状 态 的 持续 
时 间 。 这 样 ， 一 般 情 况 下 协议 必须 处 理 的 控制 块 也 跟着 少 了 。4.4 市 详细 介绍 了 T/TCP 协 议 的 
这 个 特性 。 现 在 可 以 这 样 说 : 对 于 连接 时 间 很 短 ( 典 型 值 为 小 于 2 分 钟 ) 的 所 有 TCP 应 用 程序 ， 
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如 果 通 信 双 方 的 主机 都 支持 TITCP， 它 们 都 将 因 使 用 该 协议 而 获 益 。 

使 用 T/TCP 的 最 大 好 处 或 许 在 于 避免 了 三 次 握手 过 程 ， 对 于 那些 交换 的 数据 量 比较 小 的 应 
用 程序 ，T/TCP 减 少 的 时 延 将 给 它们 带 来 好 处 。 我 们 将 给 出 几 个 例子 来 说 明 这 一 点 (附录 B 谈 
到 了 利用 T/TCP 来 避免 三 次 担 手 过 程 要 对 应 用 程序 做 怎样 的 修改 )。 

1. WWW: 超 文本 传输 协议 

WWW 及 其 所 依赖 的 HTTP 协 议 ( 将 在 第 13 章 介绍 该 协议 ) 将 可 能 大 大 地 受益 于 T/TCP 协 议 。 
参考 书 [Mogul 1995b] 中 指出 :“ 然 而 ， 构 成 Web 应 用 传输 时 延 的 主要 因素 是 网 络 通 信 :…… 即 便 
无 法 提高 光 的 传播 速度 ， 但 我 们 至 少 应 该 想 办 法 减少 一 次 交互 过 程 中 的 往返 传输 次 数 。 当 前 
Web 网 中 使 用 的 超 文本 传输 协议 (HTTP) 实 际 上 造成 了 大 量 不 必要 的 往返 传输 ”。 

比如 ，[Mogul 1995b] 中 对 随机 抽取 的 200 000 个 HTTP 请 求 的 统计 发 现 ， 应 答 长 度 的 中 值 
为 1770 字 节 ( 通 常 使 用 中 值 而 不 使 用 均值 ， 是 因为 很 少 出 现 的 大 文件 会 使 均值 变 大 )。Mogul 还 
引用 了 另 一 个 例子 。 该 例 随 机 抽样 了 大 约 150 万 个 请 求 ， 其 应 答 的 长 度 中 值 为 958 字 节 。 客 户 
的 请 求 一 般 很 短 : 在 100~300 字 节 之 间 。 

典型 的 HTTP 客 户 一 服务 器 事务 和 图 1-8 所 示 的 很 相似 。 客 户 端 主动 打开 ， 向 服务 器 发 出 很 
短 的 请 求 ， 服 务 器 收 到 请 求 后 发 出 应 答 ， 然 后 服务 器 关闭 连接 。 这 种 情况 非常 适 于 使 用 
T/TCP 协 议 ， 把 客户 端的 SYN 和 客户 的 请 求 合 并 在 一 起 传送 以 省 去 三 次 担 手中 的 往返 时 间 。 
这 还 会 减少 网 络 上 的 分 组 数 ， 对 于 已 经 非常 巨大 的 Web 通 信 量 来 说 也 是 很 有 意义 的 。 

2. FTP 数 据 连 接 

FTP 数 据 连 接 也 会 从 使 用 T/TCP 协 议 中 获 益 。 从 一 项 对 Internet 通 信和 量 的 统计 调查 中 ， 
[Paxson 1994b] 发 现 平均 每 个 FTP 数 据 连 接 所 传输 的 数据 量 约 为 3000 字 节 。 卷 1 的 第 323 页 给 
了 FTP 数 据 连 接 的 一 个 例子 。 虽 然 例子 中 的 数据 流 是 单 向 的 ， 但 其 传输 过 程 还 是 与 图 1-12 所 示 
的 十 分 相似 。 采 用 T/TCP 后 ， 图 中 的 8 个 报 文 段 减少 到 了 3 个 。 

3. 域名 服务 系统 (DNS) 

DNS 客户 的 查询 请 求 是 用 UDP 传送 到 DNS 服务 器 的 。 服 务 器 仍然 用 UDP 发 送 给 客户 的 应 
答 。 但 如 果 应 答 超过 512 字 节 ， 那 么 只 有 前 512 字 节 会 在 应 答 中 返回 给 客户 ， 同 时 在 应 答 中 有 
"truncated" (截断 ) 标 志 ， 表 示 还 有 信息 要 传 给 客户 。 于 是 客户 用 TCP 向 服务 器 重新 发 送 查询 
请 求 ， 而 后 服务 器 用 TCP 向 客户 传送 完整 的 应 答 。 

采用 这 项 技术 的 原因 是 不 能 保证 特定 的 主机 能 够 重组 长 度 超过 576 字 节 的 IP 数 据 报 (实际 
上 ,许多 UDP 应 用 程序 都 把 用 户 数据 的 长 度 限定 在 512 字 节 以 内 ， 以 保证 不 超过 576 字 节 的 限 
制 )。 由 于 TCP 是 一 个 字 节 流 协 议 ， 应 答 数据 量 再 大 也 不 会 有 问题 。 发 送 方 TCP 会 根据 连接 建 
立时 对 等 端 声明 的 报 文 段 最 大 长 度 (MSS) 限 制 ， 把 应 用 程序 的 应 答 数据 分 割 成 适当 长 度 的 报 文 
段 发 给 对 方 。 接 收 方 TCP 会 把 这 些 报 文 段 拼接 起 来 ， 并 以 应 用 程序 读 取 时 指定 的 数据 长 度 交 
给 接收 的 应 用 程序 。 

DNS 的 客户 和 服务 器 可 以 利用 T/TCP， 既 达到 UDP 的 请 求 - 应 答 速 度 ， 又 具有 TCP 的 所 有 
好 处 。 

4. 远程 过 程 调用 (RPC) 

在 所 有 论述 将 传输 协议 用 于 事务 的 论文 中 ， 无 不 将 RPC 作 为 一 个 候选 的 应 用 协议 。RPC 
中 客户 要 向 载 有 待 执行 程序 的 服务 器 发 送 请 求 ， 请 求 中 带 有 客户 给 定 的 参数 ， 服 务 器 的 应 答 
中 包括 过 程 执行 后 所 返回 的 结果 。 参 考 书 [Stevens 1994] 的 29.2 节 中 讨论 了 Sun RPC, 
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RPC 的 数据 包 往 往 非 常 大 ， 必 须 给 RPC 协 议 增加 可 靠 性 ， 使 其 能 在 像 UDP 这 样 不 保证 可 
靠 性 的 协议 上 运行 ， 同 时 还 要 避免 TCP 的 三 次 握手 。 使 用 T/TCP 协 议 就 能 实现 这 一 目标 ， 既 有 
TCP 的 可 靠 性 ， 又 没有 三 次 握手 的 开销 。 

所 有 建立 在 RPC 基 础 上 的 应 用 程序 ， 比 如 网 络 文件 系统 (NFS) 等 都 可 以 采用 T/TCP 协 议 。 


1.8 历史 


RFC 938 [Miller 1985] 是 较 早 讲述 事务 的 RFC 文 档 之 一 。 该 文档 中 规定 了 IRTP， 即 ; 
Internet 可 靠 的 事务 协议 ， 它 能 保证 数据 分 组 的 可 靠 、 按 顺序 提交 。 该 文档 中 把 事务 定义 为 一 
个 短小 的 、 自 包含 的 报 文 ， 而 IRTF 定 义 了 任意 两 台 主 机 ( 即 IP 地 址 ) 之 间 持 续 存在 的 优选 连接 ， 
当 其 中 任何 一 台 主 机 重新 启动 后 ， 该 连接 都 会 重新 同步 。IRTF 协 议 位 于 IP 协 议 之 上 ， 并 定义 
了 专门 的 8 字 节 首部 。 

RFC 955 [Braden 1985] 本 质 上 并 未 规定 任何 协议 ， 而 只 是 给 出 了 事务 协议 的 一 些 设 计 淮 
则 。 它 认为 UDP 和 TCP 这 两 个 主流 的 运输 层 协议 所 提供 的 业务 相差 太 大 ， 而 事务 协议 正好 填 
补 了 TCP 和 UDP 之 间 的 空挡 。 该 RFC 文 档 把 事务 定义 为 一 次 简单 的 报 文 交 换 : 一 个 请 求 发 给 
服务 器 ， 然 后 一 个 应 答 发 回 到 客户 。 它 还 认为 各 种 事务 都 有 如 下 特征 : 不 对 称 的 模式 (一 端 是 
服务 器 ， 另 一 端 是 客户 )、 单 工 数据 传递 ( 任 一 时 刻 都 只 有 一 个 方向 有 数据 传输 )、 持 续 时 间 短 
(可 能 延续 几 十 秒 ， 但 绝 不 可 能 几 小 时 )、 时 延 小 、 数 据 分 组 少 以 及 面向 报 文 (不 是 字 节 流 )。 

该 RFC 中 列举 了 域名 服务 系统 (DNS) 的 例子 。 它 认为 ， 在 考虑 是 用 UDP 还 是 用 TCP 作 为 域 
名 服务 系统 的 运输 层 协议 时 ， 设 计 者 往往 陷入 两 难 的 境地 。 一 个 理想 的 解决 方案 应 该 既 能 提 
供 可 靠 的 数据 传输 ， 又 不 需要 专门 地 建立 和 释放 连接 ， 不 需要 报 文 的 分 段 和 重组 (从 而 使 应 用 
程序 不 再 需要 知道 像 5376 这 样 的 神秘 数字 )， 同 时 还 能 使 两 端的 空闲 状态 所 处 时 间 最 短 。TCP 什 
么 都 好 ， 只 可 惜 它 需要 建立 和 释放 连接 。 

另 一 个 相关 的 协议 是 RDP， 即 可 靠 数 据 协 议 。 该 协议 在 RFC 908 [Velten, inden, and Sax 
1984] 中 定义 ， 后 来 又 更 新 为 RFC 1151 [Patridge and Hinden 1990]。 与 RDP 实 现 有 关 的 经 验 在 
参考 文献 [Patridge 1987] 中 可 以 找到 。 参 考 文献 [Patridge 1990a] 中 对 RDP 有 如 下 评价 :“ 当 人 
们 寻求 一 个 可 靠 的 数据 报 协议 时 ， 他 们 通常 是 想 要 一 个 事务 协议 ， 一 个 能 够 让 他 们 与 多 个 远 
端 系统 可 靠 地 交换 数据 单元 的 协议 ， 一 个 类 似 于 可 靠 UDP 的 协议 。RDP 应 该 看 作 是 一 个 面向 
记录 的 TCP 协 议 ， 它 利用 连接 可 靠 地 传输 有 格式 数据 块 流 。RDP 并 不 是 一 个 事务 协议 。”(RDP 
不 是 事务 协议 的 理由 是 ， 它 和 TCP 一 样 采用 了 三 次 握手 技术 。) 

RDP 使 用 通常 的 插口 应 用 编程 接口 。 与 TCP 类 似 ，RDP 提 供 流 插口 接口 (soCK_ 
STREAM)。 另 外 ，RDP 还 提供 SOCK_RDM 插 口 类 型 (可 靠 的 报 文 提交 ) 和 SOCK _SEQPACKET 插 
口 类 型 (有 序 的 分 组 )。 

VMTP， 即 通用 报 文 事务 协议 ， 是 在 RFC 1045 [Cheriton 1998] 中 规定 的 ， 是 一 个 专门 用 
于 事务 的 协议 ， 就 像 远 程 过 程 调 用 一 样 。 像 RTP 和 RDP 那 样 ，VMTP 也 是 IP 之 上 的 运输 层 协 
议 ， 但 YMTP 还 支持 多 播 通信 ， 这 个 特性 是 T/TCP 以 及 本 节 提 到 过 的 其 他 协议 所 不 具备 的 ( 参 
考 文 献 [Floyd et al. 1995] 中 有 不 同意 见 ， 他 们 认为 提供 可 靠 的 多 播 通信 是 应 用 层 的 任务 ， 而 不 
是 运输 层 的 任务 )。 

VMTP 还 为 应 用 程序 提供 不 一 样 的 应 用 编程 接口 ， 其 插口 类 型 为 SOCK_TRANSACT。 具 体 
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定义 详 见 RFC 1045。 

虽然 T/TCP 的 许多 概念 早 在 RFC 955 中 就 已 经 出 现 ， 但 直到 RFC 1379 [Braden 1992b] 发 布 
才 正 式 有 了 T/TCP 的 第 一 个 规范 。 该 RFC 文 档 定义 了 T/TCP 的 概念 ， 接 下 来 的 RFC 1644 
[Braden 1994] 给 出 了 更 多 细节 ， 并 讨论 了 一 些 实现 问题 。 

图 1-15 比 较 了 实现 各 种 运输 层 协 议 分别 都 需要 多 少 行 C 源 代码 。 


UDP( 卷 2) 
RDP 


TCP( 卷 2) 
T/TCP 模 式 的 TCP 
VMTP 


图 1-15 实现 各 种 运输 层 协议 所 需要 的 源 代 码 行 数 








为 支持 TATCP 所 需 增加 的 源 代 码 行 数 ( 大 约 1200 行 ) 是 UDP 协议 源 代码 行 数 的 1.5 倍 。 为 使 
4.4BSD 支 持 多 播 通信 ， 需 要 增加 大 约 2000 行 源 代码 (设备 驱动 程序 的 改变 和 支持 多 播 路 由 所 需 
要 的 代码 行 数 尚未 计算 在 内 )。 

VMTP 可 以 从 ftp://gregorio.stanford.edu/vmtp-ip 得 到 。RDP 通 常 

还 无 法 得 到 。 


1.9 实现 


第 一 个 TITCP 实 现 是 由 Bob Braden 和 Liming Wei 在 南 加 州 大 学 的 信息 科学 学 院 (USC ISD 完 
成 的 。 该 项 工作 得 到 了 美国 国家 科学 基金 (NSE) 的 部 分 资助 ， 批 准 号 为 NCR-8922231。 该 实 
现 是 为 SunOS 4.1.3( 从 伯克利 汝 变 而 来 的 内 核 ) 做 的 ，1994 年 9 月 就 可 以 用 匿名 的 FTP 得 到 了 。 
SunOS 4.1.3 的 产 代 码 补 本 可 以 从 ftp://Etp.isi.edu/pub/braden/TTCP .tazr.2Z 得 
到 ， 但 你 必须 有 SunOS 内 核 的 源 代码 才能 应 用 这 些 补丁 。 

Twente 大 学 (荷兰 ) 的 Andras Olah 修 改 了 USC ISI 的 实现 ， 并 于 1995 年 3 月 将 其 在 FreeBSD 
2.0 版 中 发 布 。FreeBSD 2.0 中 的 网 络 代码 是 基于 4.4BSD-Lite 版 的 ( 卷 2 中 有 介绍 )。 图 1-16 给 出 
了 各 种 BSD 版 本 的 演变 历程 。 与 路 由 表 ( 我 们 将 在 第 6 章 中 讨论 ) 有 关 的 所 有 工作 都 是 由 麻 省 理 
工学 院 (Massachusetts Institute of Technology) 和 的 Garrett Wollman 完 成 的 。FreeBSD 实 现 的 有 关 
信息 可 以 从 http://www.freebsd.org 得 到 。 

本 书 作者 把 FreeBSD 实 现 移植 到 了 BSD/OS 2.0 内 核 (该 内 核 也 基于 4.4BSD-Lite 中 的 网 络 代 
码 ) 中 ， 也 就 是 运行 在 主机 bsdi 和 1aptop( 图 1-13 中 ) 中 的 代码 ， 本 书 从 头 至 尾 都 用 它们 。 为 
了 支持 T/TCP 而 对 BSD/OS 所 做 的 修改 可 以 从 作者 的 个 人 主页 里 找到 :; http://www. 
noao.edu/-rstevens, 

图 1-16 给 出 了 各 个 BSD 版 本 的 演变 历程 ， 其 中 还 标 出 了 重要 的 TCP/IP 特 性 。 图 中 左边 显 
示 的 是 可 以 公开 得 到 源 代码 的 版 本 ， 其 中 有 所 有 网 络 代码 : 协议 本 身 、 网 络 接口 的 内 核 例 程 
以 及 许多 应 用 程序 和 实用 工具 (比如 Telnet 和 FTP)。 

本 书 中 所 描述 的 TATCP 实 现 的 基础 软件 的 正式 名 称 是 4.4BSD-Lite， 但 我 们 一 般 简 称 其 为 
Net/3。 还 要 说 明 的 是 ， 可 以 公开 得 到 的 Net/3 版 本 中 不 包括 本 书 所 述 为 支持 T/TCP 而 做 的 修改 。 
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4.2BSD (1983) 
第 一 个 广 为 流 行 的 
TCP/IP 的 版 本 


: 


4.3BSD (1986) 
TCP 性 能 改善 


4.3BSD Tahoe (1988) 


慢 启动 
避免 拥塞 
"Nc uu paio 
BSD 连 网 软件 | 
1.0 版 (1989): Nev1 4.3BSD Reno (1990) 
快速 恢复 
TCP 首 部 预测 
NEM SLIP 首 部 压缩 
路 由 表 变 更 
BSD 连 网 软件 
2.0 版 (1991): Net/2 
4.4BSD (1993) 


m 
pe ad 长 肥 管道 修改 


4.4BSD-Lite (1994) 


正文 中 称 为 Net/3 BSD/OS 
| FreeBSD 
NetBSD 


4.4BSD-Lite2(1995) 


图 1-16 带 有 重要 TCP/IP 特 性 的 各 种 BSD 发 行 版 


当 提 到 Net/3 这 个 术语 时 ， 实 际 所 指 的 就 是 这 个 不 包含 TTTCP 的 、 可 公开 得 到 的 版 本 。 

4.4BSD-Lite2 是 1995 年 对 4.4BSD-Lite 的 升级 。 从 网 络 部 分 来 看 ， 从 Lite 到 Lite2 仅 仅 是 解 
决 了 一 些 bug， 以 及 少量 的 改进 (比如 我 们 将 在 14.9 布 中 介绍 的 超时 的 持续 探测 )。 我 们 给 出 了 3 
个 基于 Lite 代 码 的 系统 : BSD/OS、FreeBSD 和 NetBSD。 本 书 所 述 全 部 都 是 基于 Lite 代 码 的 ， 
但 所 有 以 上 的 3 个 版 本 都 应 该 在 下 一 个 主要 版 本 中 升级 到 Lite2。 可 以 从 下 面 的 Walnut Creek 
CDROM 站 点 得 到 含有 Lite2 版 本 的 光盘 : http://www.cdrom.com, 

本 书 全 书 都 将 用 “从 伯克利 演变 而 来 的 实现 ”这 个 术语 指称 厂商 的 实现 ， 比 如 SunOS、 
SVR4(System V Release 4) 和 AIX， 因 为 所 有 这 些 实现 的 TCP/IP 代 码 最 初 都 来 自 于 伯克利 源 代 
码 ， 它 们 之 间 有 许多 共同 点 ， 甚 至 连 程序 中 的 差错 都 相同 ! 


1.10 小 结 


本 章 的 目的 是 让 读者 相信 T/TCP 的 确 为 许多 实际 中 的 网 络 应 用 问题 提供 了 一 个 解决 方案 。 
我 们 从 比较 一 个 分 别 用 UDP、TCP 和 T/TCP 编 写 的 、 简 单 的 客户 一 服务 器 程序 开始 。 用 UDP 协 


22 — $—39 TCP*$5x 


议 需 要 交换 两 个 分 组 ， 用 TCP 需 要 9 个 ， 而 用 T/TCP 需 要 3 个 。 我 们 还 发 现 ， 用 T/TCP 和 用 UDP 
时 在 客户 端 测 得 的 事务 时 间 相差 无 几 。 图 1-14 所 示 的 时 间 测 量 结果 证 明了 我 们 的 结论 。 除 了 
可 以 达到 UDP 的 性 能 之 外 ，T/TCP 还 具有 可 靠 性 和 适应 性 ， 这 两 点 都 是 对 UDP 的 重大 改进 。 
T/TCP 因 为 避免 了 常规 TCP 中 的 三 次 握手 而 获得 上 述 各 种 优点 。 为 了 利用 这 些 优 点 ， 客 户 
和 服务 器 程序 在 应 用 TATCP 时 必须 对 源 代码 做 一 些 简 单 的 改动 ， 主 要 是 在 客户 端 用 sendto 国 
数 代 替 connect 、wzrite 和 shutdown 这 3 个 函数 。 
在 后 面 的 3 章 中 ， 我 们 将 研究 协议 是 如 何 工 作 的 ， 同 时 还 会 研究 更 多 的 TATCP 应 用 例子 。 


第 2 章 T/TCP 协 议 


2.1 概述 


我 们 分 两 章 ( 第 2 章 和 第 4 章 ) 讨 论 T/TCP 协 议 。 这 样 ， 在 深入 研究 T/TCP 协 议 之 前 (第 3 章 )， 
我 们 可 以 先 看 一 些 应 用 T/TCP 的 例子 。 本 章 主 要 对 协议 应 用 技巧 和 实现 中 用 到 的 变量 做 一 个 
介绍 。 下 一 章 我 们 学 习 一 些 T/TCP 应 用 的 示例 程序 。 第 4 章 结 束 我 们 对 T/TCP 协 议 的 学 习 。 

在 第 1 章 中 我 们 已 经 看 到 了 ， 当 把 TCP 协 议 应 用 于 客户 一 服务 器 事务 时 会 存在 两 个 问题 : 

1) 如 图 1-8 所 示 ， 三 次 握手 使 客户 端 测 得 的 事务 时 间 额 外 多 出 一 个 RTT。 

2) 由 于 客户 进程 主动 关闭 连接 ( 即 由 客户 进程 首先 发 出 FIN)， 因 而 在 客户 收 到 服务 器 的 

FIN 后 还 要 在 TIME_WAIT 状 态 滞 留 大 约 240 秒 。 

TIME_WAIT 状 态 和 16 位 TCP 端 口号 这 两 者 结合 起 来 限制 了 两 台 主 机 之 间 的 最 大 事务 速 
率 。 例 如 ， 如 果 同 一 台 客户 主机 要 不 断 地 和 同一 台 服 务 器 主机 进行 事务 通信 ， 那 么 它 
要 么 每 完成 一 次 事务 后 等 待 240 秒 才 开 始 下 一 个 事务 ， 要 么 为 紧 接 着 的 事务 选择 另外 一 
个 端口 号 。 但 每 240 秒 的 时 间 内 至 多 只 能 有 64 512 个 端口 (65 535 减 去 1023 个 知名 端口 ) 
可 用 ， 从 而 每 秒 最 多 也 就 只 能 处 理 268 个 事务 。 在 RTT 值 为 1~3ms 的 局 域 网 上 ， 实 际 上 
可 能 会 超过 这 个 速率 。 

而 且 ， 即 使 应 用 程序 的 事务 速率 低 于 这 个 速率 一 一 比如 每 240 秒 50 000 次 事务 ， 当 客户 
端 处 于 TIME_WAIT 状 态 时 ， 协 议 还 是 需要 控制 块 来 保存 连接 的 状态 。 卷 2 中 给 出 的 
BSD 实 现 中 ， 每 个 连接 都 需要 一 个 Internet 协 议 控 制 块 (84 字 节 )、 一 个 TCP 控 制 块 (140 字 
节 ) 和 一 个 TCP/IP 首 部 模板 (40 字 节 )。 这 样 总 共 就 需要 13 200 000 字 节 的 内 核 存 储 空间 。 
这 个 开销 即便 在 内 存 不 断 扩 大 的 今天 依然 显得 大 了 些 。 

现在 ，T/TCP 协 议 解决 了 这 两 个 问题 ,采用 的 方法 是 绕 过 三 次 握手 ， 并 把 TIME_WAIT 状 态 
的 保持 时 间 由 240 秒 缩短 到 大 约 12 秒 。 我 们 将 在 第 4 章 中 详细 研究 这 两 个 特点 。 

T/TCP 协 议 的 核心 称 为 TAO， 即 TCP 加 速 打 开 ， 跳 过 了 TCP 的 三 次 握手 。T/TCP 给 主机 建 
立 的 每 个 连接 分 配 一 个 唯一 的 标识 符 ， 称 为 连接 计数 (CC)。 每 台 T/TCP 主 机 都 要 将 不 同 主机 
对 之 间 的 最 新 连接 计数 CC 保持 一 段 时 间 。 当 服务 器 收 到 来 自 T/TCP 客 户 的 SYN 时 ， 如 果 其 中 
携带 的 CC 大 于 该 主机 对 最 新 连接 的 CC， 就 保证 这 是 一 个 新 的 SYN ， 于 是 就 接受 该 连接 请 求 ， 
而 不 需要 三 次 担 手 。 这 个 过 程 称 为 TAO 测试 。 如 果 测 试 失败 ，TCP 还 是 用 三 次 握手 的 老 方法 
来 确认 当前 这 个 SYN 是 否 为 新 的 。 


2.2 T/TCP 中 的 新 TCP 选 项 
T/TCP 协 议 中 有 三 个 新 的 TCP 选 项 。 图 2-1 给 出 了 目前 TCP 协 议 使 用 的 所 有 选项 。 其 中 前 3 
个 出 自 最 初 的 TCP 协 议 规范 ， 即 RFC 793 [Postel 1981b]。 而 窗口 宽度 和 时 间 惟 则 是 在 RFC 


1323 [Jacobson, Braden, and Borman 1992] 中 定义 的 。 最 后 三 个 选项 (CC、CCnew 和 CCecho) 则 
是 T/TCP 协 议 新 引入 的 ， 在 RFC 1644 [Braden 1994] 中 定义 。 最 后 这 几 个 选项 的 使 用 规则 如 下 : 
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1) CC 选项 在 客户 执行 主动 打开 操作 时 发 出 的 第 一 个 SYN 报 文 段 中 使 用 。 它 也 可 以 在 其 他 
一 些 报 文 段 中 使 用 ， 但 前 提 是 对 方 发 过 来 的 SYN 报 文 段 中 带 有 CC 或 CCnew 选 项 。 

2) CCnew 选 项 只 能 在 第 一 个 SYN 报 文 段 中 使 用 。 当 需要 执行 正常 的 三 次 握手 操作 时 ， 客 
户 端的 TCP 协 议 就 使 用 CCnew 选 项 而 不 用 CC 选项 。 

3) CCecho 选 项 仅 在 三 次 握手 过 程 中 的 第 二 个 报 文 段 中 使 用 , 通常 由 服务 器 发 出 该 报 文 段 ， 
并 携带 有 SYN 和 ACK。 该 报 文 段 将 CC 或 CCnew 的 值 返回 给 客户 ， 告 知客 户 本 服务 器 支 
持 T/TCP 协 议 。 

本 章 以 及 下 一 章 的 例子 中 我 们 还 会 进一步 讨论 这 些 选项 。 























f 选项 表 结束 (EOL) kind=0 
1 字 节 
US 无 操作 (NOP) kind-1 
名 
E= 
. 报 文 段 最 大 
kind=2 
LES ”1 字 节 2 字 节 
窗口 宽度 因子 kind=3 | len=3 | (NEUE 
[se] 
e 1 字 节 ”1 字 节 FH 
Uy 
z 
Ii kind-8 | len-10 时 间 蕉 什 时 间 改 回 显 应 答 
1 字 节 gd 4 字 节 spt 
[ CC 2 连接 计数 | 
1 字 节 1# 4 字 节 
i 
5 CCnew kind-12 新 连接 计数 
LL 
[2 
1 字 节 1 字 节 4 字 节 
CCecho kind=13 | len=6 连接 计数 回 显 
SN 
1 字 节 1 字 节 4 字 节 
图 2-1 TCP 选 项 


不 难 发 现 ，T/TCP 的 3 个 新 选项 均 为 6 字 节 长 。 为 了 使 这 些 选项 继续 按 4 字 节 定 界 ( 这 在 某 些 
系统 体系 结构 中 有 助 于 提高 性 能 )， 我 们 通常 在 这 些 选项 的 前 面 加 上 两 个 单字 节 的 无 操作 (NOP)。 
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如 果 客 户 既 支持 RFC 1323, ， 也 支持 TITCP 协 议 ， 这 时 客户 发 给 服务 器 的 第 一 个 SYN 报 文 段 中 
的 TCP 选 项 如 图 2-2 所 示 。 我 们 特意 给 出 了 每 个 选项 的 类 型 值 和 长 度 值 ，NOP 用 阴影 表示 ， 甚 类 型 
值 (kind) 为 1。 第 二 个 选项 是 窗口 宽度 (Window Scale)， 这 里 用 “WS” 标 记 。 方 格 上 方 的 数字 是 每 
个 选项 相对 于 选项 字段 起 始 的 字 节 偏 移 量 。TCP 协 议 选项 的 最 大 长 度 为 40 字 节 ， 本 例 中 的 TCP 选 
项 共 需 28 字 节 。 从 图 中 可 以 看 出 ， 采 用 NOP 填 充 以 后 ， 所 有 4 个 4 字 节 的 值 都 符合 4 字 节 定 界 规 则 。 


4 8 12 


16 20. 24 28 
aoc Ode DIRIOLT DONUM 
图 2-2 同时 支持 RFC 1323 和 TVTCP 的 客户 发 给 服务 器 的 第 一 个 SYN 报 文 段 的 TCP 选 项 


如 果 服 务 器 既 不 支持 RFC 1323， 也 不 支持 T/TCP 协 议 ， 它 发 给 客户 带 有 SYN 和 ACK 的 应 
答 中 就 只 有 报 文 段 最 大 长 度 (MSS) 选 项 。 但 如 果 服 务 器 既 支 持 RFC 1323， 也 支持 TATCP 协 议 ， 
那么 它 给 客户 的 应 答 中 将 包含 图 2-3 所 示 的 TCP 选 项 ， 总 长 为 36 字 节 。 


4 8 12 ^ 16 20 24 28 i 32 
PEN nem DP 00M NECS e 


图 2-3 服务 器 对 图 2-2 所 示 请 求 的 应 答 中 的 TCP 选 项 
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由 于 CCecho 选 项 总 是 和 CC 选项 一 起 发 送 ， 因 此 T/TCP 协 议 的 设计 本 可 以 把 这 两 
个 选项 合 二 为 一 ， 从 而 为 宝 焉 的 TCP 协 议 选 项 空间 节省 4 字 节 。 或 者 也 可 以 这 样 ， 这 
种 最 坏 的 选项 排列 只 在 服务 器 给 出 SYN/ACK 时 出 现 ， 而 它们 的 出 现 无 论 如 何 总 要 使 
TCP 处 理 速 度 变 慢 的 ， 因 此 索性 连 NOP 字 节 也 省 去 ， 则 实际 上 可 以 节省 7 字 节 。 
由 于 报 文 段 的 最 大 长 度 和 窗口 宽度 选项 只 在 SYN 报 文 段 中 出 现 ， 而 CCecho 选 项 只 在 


SYN/ACK 报 文 段 中 出 现 ， 因 此 ， 如 果 连 接 两 端 都 支持 RFC 1323 和 T/TCP 协 议 ， 则 自 此 以 后 的 
报 文 段 中 也 都 只 包含 时 间 惟 和 CC 选项 ， 如 图 2-4 所 示 。 


4 8 12 16 20 
CECCI DO 有 3 


图 2-4 两 端 都 支持 RFC 1323 和 T/TCP 时 非 SYN 报 文 段 所 包含 的 TCP 选 项 
可 以 看 出 ， 一 旦 连接 建立 ， 时 间 惟 和 CC 选项 给 所 有 的 TCP 报 文 段 都 增加 了 20 字 节 。 
当 讲 到 TATCP 协 议 时 ， 我 们 常常 用 一 般 术 语 CC 选项 作为 本 节 所 引入 的 3 个 TCP 选 项 的 统称 。 
时 间 稚 和 CC 选项 带 来 了 多 大 的 额外 开销 呢 ? 假设 两 台 主 机 位 于 两 个 不 同 的 网 络 
上 ， 报 文 段 最 大 长 度 设 为 典型 值 512 字 节 。 要 传递 1MB 的 文件 ， 如 果 没 有 这 些 选项 ， 
则 需要 1954 个 报 文 段 ; 如 果 使 用 时 间 改 和 CC 选项 ， 则 需要 2033 个 报 文 段 ， 较 前 者 增加 
了 4W%。 如 果 报 文 段 最 大 长 度 为 1460 字 节 ， 那 么 报 文 段 数 只 增加 了 1.5%%。 


2.3 T/TCP 实现 所 需 变量 


T/TCP 协 议 要 求 内 核 保 存 一 些 新 增 的 信息 ， 本 节 将 对 这 些 信 息 加 以 描述 ， 后面 儿 市 将 讨论 
如 何 使 用 这 些 新 信息 。 
1) tcp_ccgen。 这 是 一 个 32 位 的 全 局 整 型 变量 ， 记 录 待 用 的 CC 值 。 每 当主 机 建立 了 一 
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个 连接 ， 该 变量 的 值 就 加 1， 无 论 是 主动 还 是 被 动 ， 也 无 论 是 否 使 用 T/TCP 协 议 。 该 变 
量 永 不 为 0。 当 变量 渐渐 增长 了 时， 如果 又 回 到 了 0， 那 么 就 将 其 值 置 为 1。 

2) 每 主机 高 速 缓存 (per-host cache)， 其 中 包含 了 三 个 新 变量 , 即 tao_cc、 tao ccsent 
和 tao_mssopt。 该 高 速 缓 存 也 称 为 TAO 高 速 缓存 。 我 们 将 看 到 ，T/TCP 协 议 为 每 一 
个 与 之 通信 的 主机 创建 一 个 路 由 表 项 ， 并 把 这 些 信息 存储 在 路 由 表 项 中 (把 每 主机 高 速 
缓存 安排 在 路 由 表 中 是 很 方便 的 。 当 然 也 可 以 另 开 一 张 完全 分 离 的 表 作为 每 主机 高 速 
缓存 。T/TCP 协 议 不 需要 对 IP 路 由 功能 做 任何 改动 )。 在 每 主机 高 速 缓存 中 创建 一 个 新 
表 项 时 ，tao_cc 和 tao_ccsent 必 须 初始 化 为 0， 表 示 它 们 尚未 定义 。 
tao_cc 记 录 的 是 最 后 一 次 从 对 应 主机 接收 到 且 不 含 ACK 的 合法 的 SYN 报 文 段 ( 即 主动 
打开 连接 ) 中 的 CC 值 。 当 TVTCP 主 机 收 到 一 个 带 有 CC 选项 的 SYN 报 文 段 时 ， 如 果 CC 选 
项 的 值 大 于 tao_cc， 那 么 主机 就 知道 这 是 一 个 新 的 SYN 报 文 段 ， 而 不 是 一 个 重复 的 
老 SYN， 这 样 就 可 以 跳 过 三 次 握手 (TAO 测 试 )。 
tao_ccsent 记 录 的 是 发 给 相应 主机 的 最 后 一 个 不 含 ACK 的 SYN 报 文 段 ( 即 主 动 打开 
连接 ) 中 的 CC 值 。 如 果 该 值 未 定义 (为 0)， 那 么 只 有 当 对 方 发 回 一 个 CCecho 选 项 ， 表 示 
其 可 以 使 用 T/TCP 协 议 时 ， 才 将 tao_ccsent 设 置 为 非 0。 
tao_mssopt 是 最 后 一 次 从 相应 主机 接收 到 的 报 文 段 最 大 长 度 选 项 值 。 

3) 现 有 的 TCP 控 制 块 中 增加 了 3 个 新 变量 ， 即 cc_send、cc_recv 和 t_duration。 第 1 个 变 
量 记 录 的 是 该 连接 上 发 送 的 每 一 个 报 文 段 中 的 CC 值 ， 第 2 个 变量 记录 的 是 希望 对 方 发 来 的 
报 文 段 中 所 携带 的 CC 值 ， 最 后 一 个 变量 则 用 来 记录 连接 已 经 建立 了 多 长 时 间 ( 以 系统 的 时 钟 
滴答 计算 )。 当 连接 主动 关闭 时 ， 如 果 该 时 间 计 数 器 显示 的 连接 持续 时 间 小 于 报 文 段 最 大 生 
存 时 间 (0MSL)， 则 TIME_WAIT 状 态 将 被 截断 。 我 们 在 4.4 节 中 将 更 详细 地 讨论 这 个 问题 。 

我 们 在 图 2-5 中 给 出 这 些 新 变量 。 在 后 续 章 节 讲 T/TCP 协 议 实 现时 就 用 这 些 变 量 。 


tcp_ccgen: 
每 内 核 
| } 


route() 


tao ccsent 


IE 


tao cc 


每 - 
每 主机 





E 


— 





图 2-5 T/TCP 实 现 中 的 变量 
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在 这 个 图 中 ， 我 们 用 {} 表 示 结 构 。 图 中 的 TCP 控 制 块 是 一 个 tcpcb 结 构 。 所 有 TCP 协 议 的 
实现 都 必须 为 其 中 的 连接 保存 并 维护 一 个 控制 块 ， 控 制 块 的 形式 可 以 多 样 ， 但 必须 包含 特定 
连接 的 所 有 变量 。 


2.4 状态 变迁 


TCP 协 议 的 工作 过 程 可 以 用 图 2-6 所 示 的 状态 变迁 图 来 描述 。 大 多 数 状态 变迁 图 都 把 状态 

迁 时 发 送 的 报 文 段 标 在 变迁 线 的 边 上 。 例 如 ， 从 CLOSED 状 态 到 SYN_SENT 状 态 的 变迁 就 
EBERT 个 SYN 报 文 段 。 在 图 2-6 中 则 没有 采用 这 种 标记 方法 ， 而 是 在 每 个 状态 框 中 标 出 
处 于 该 状态 时 要 发 送 的 报 文 段 类 型 。 例 如 ， 当 处 于 SYN_RECV 状 态 时 ， 要 发 出 一 个 带 有 SYN 
的 报 文 段 ， 其 中 还 包括 对 所 收 到 SYN 的 确认 (ACK)。 而 当 处 于 CLOSE_WAIT 状 态 时 ， 要 发 出 
对 所 收 到 FIN 的 确认 (ACK)。 

我 们 之 所 以 要 这 样 做 ， 是 因为 在 T/TCP 协 议 中 我 们 经 常 需 要 处 理 可 能 造成 多 次 状态 变迁 的 
报 文 段 。 于 是 在 处 理 一 个 报 文 段 时 ， 重 要 的 是 处 理 完 报 文 段 后 连接 所 处 的 最 终 状 态 ， 因 为 它 
决定 了 应 答 的 内 容 。 而 如 果 不 使 用 T/TCP 协 议 ， 每 收 到 一 个 报 文 段 通常 至 多 只 引起 一 次 状态 
变迁 ， 只 有 在 收 到 SYN/ACK 报 文 段 时 才 是 例外 ， 很 快 我 们 就 要 讨论 这 个 问题 。 

与 RFC 793 [Postel 1981b] 中 的 TCP 协 议 状态 变迁 图 相 比 ， 图 2-6 还 有 另外 一 些 不 同 
之 处 。 

* (ERFC 793 的 状态 变迁 图 中 ， 当 应 用 程序 发 送 数据 时 ， 会 有 从 LISTEN 状 态 到 

SYN_SENT 状 态 的 变迁 。 但 实际 上 典型 的 API 很 少 提 供 这 种 功能 。 

e RFC 1122 [Braden 1989] 中 描绘 了 一 个 直接 从 FIN_WAIT_1 状 态 到 TIME_WAIT 状 态 的 变 
， 这 发 生 在 收 到 了 一 个 带 有 FIN 和 对 所 发 FIN 的 确认 (ACK) 的 报 文 段 时 。 但 是 当 收 到 这 

B 通常 都 是 先 处 理 ACK 使 状态 变迁 到 FIN_WAIT_2， 接 着 再 处 理 FIN， 

并 变迁 到 TIME_WAIT 状 态 。 因 此 ， 图 2-6 也 能 正确 处 理 这 样 的 报 文 段 。 这 就 是 收 到 一 个 

报 文 段 导 致 两 次 状态 变迁 的 例子 。 

。 除 了 人 SYN_SENT 之 外 的 所 有 状态 都 发 送 ACK( 端 点 处 于 LISTEN 状 态 时 ， 则 什么 也 不 发 
送 )。 这 是 因为 发 送 ACK 是 不 受 条 件 限 制 的 标准 TCP 报 文 段 的 首部 总 是 留 有 ACK 的 位 
置 。 因 此 ，TCP 总 是 确认 已 接收 到 的 报 文 段 最 高 序列 号 (加 1)， 只 有 在 处 理 主动 打开 
(SYN_SENT) 的 SYN 报 文 段 和 一 些 重建 (RST) 报 文 段 时 才 例 外 。 


TCP 输 入 的 处 理 顺序 


TCP 协 议 收 到 报 文 段 时 ， 对 其 中 所 携带 的 各 种 控制 信息 (SYN、FIN、ACK、URG 和 RST 
志 ， 还 可 能 有 数据 和 选项 ) 的 处 理 顺序 不 是 随意 的 ， 也 不 是 各 种 实现 可 以 自行 决定 的 。RFC 
793 中 对 处 理 顺序 有 明确 的 规定 。 图 11-1 对 这 些 步 又 做 了 一 个 小 结 ， 该 小 结 同时 也 用 黑体 标明 
了 T/TCP 中 所 做 的 改动 。 
例如 ， 当 T/TCP 客 户 收 到 一 个 携带 有 SYN、 数 据 、FIN 和 ACK 的 报 文 段 时 ， 协 议 首先 处 理 
的 是 SYN( 因 为 此 时 的 插口 还 处 于 SYN_SENT 状 态 )， 接 着 是 ACK 标 志 ， 再 接着 是 数据 ， 最 后 
才 是 FIN。 三 个 标志 中 的 任何 一 个 都 有 可 能 引起 相应 插口 的 连接 状态 改变 。 
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被 动 关闭 








主动 关闭 
一 一 > 客户 端 TCP 状 态 的 常规 变迁 
-coco 服务 器 端 TCP 状 态 的 常规 变迁 
appl: 应 用 程序 发 布 操作 指令 时 的 TCP 状 态 变 迁 
recv: 收 到 报 文 段 时 的 TCP 状 态 变迁 


图 2-6 TCP 的 状态 变迁 图 
2.5 T/TCP 的 扩展 状态 


T/TCP 中 定义 了 7 个 扩展 状态 ， 这 些 扩展 状态 都 称 为 加 星 状 态 。 它 们 分 别 是 SYN_SENT*、 
SYN RCVD*, ESTABLISHED*, CLOSE WAIT*, LAST_ACK*、FIN_WAIT_1* 和 和 
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CLOSING*。 例 如 ， 在 图 1-12 中 ， 客 户 发 出 的 第 一 个 报 文 段 中 包含 有 SYN 标 志 、 数 据 和 FIN。 
当 该 报 文 段 是 在 主动 打开 中 发 送出 去 时 ， 客 户 随即 进入 SYN_SENT* 状 态 ， 而 不 是 进入 通常 的 
SYN_SENT 状 态 ， 这 是 因为 随 报 文 段 还 必须 发 出 一 个 FIN。 当 收 到 服务 器 的 应 答 时 ， 该 应 答 中 
包含 服务 器 的 SYN、 数 据 和 FIN， 以 及 对 客户 的 SYN、 数 据 和 FIN 的 确认 (ACK)。 这 时 客户 端 
插口 的 连接 状态 要 经 历 一 系列 的 状态 变迁 : 

。 对 客户 SYN 的 ACK 将 连接 的 状态 变迁 到 FIN_WAIT_1。 传 统 的 ESTABLISHED 状 态 就 这 

样 完 全 跳 过 去 了 ， 因 为 这 时 客户 已 经 发 出 了 FIN。 

。 对 客户 FIN 的 ACK 将 连接 状态 变迁 到 FIN_WAIT 2, 

。 收 到 服务 器 的 FIN， 连 接 状态 变迁 到 TIME_WAIT。 

RFC 1379 详 细 描 述 了 包括 所 有 这 些 加 星 状 态 后 的 状态 变迁 图 演变 过 程 。 当 然 ， 得 到 的 结 
果 远 比 图 2-6 复 杂 ， 其 中 有 很 多 重 登 的 线 。 幸 运 的 是 ， 无 星 状态 和 对 应 的 加 星 状 态 之 间 只 是 一 
些 简单 的 关系 。 

。SYN_SENT* 状 态 和 SYN_RCVD* 状 态 与 对 应 的 无 星 状 态 儿 平 完 全 相同 ， 唯 一 的 不 同 之 

处 是 在 加 星 状 态 下 要 发 出 一 个 FIN。 这 就 是 说 ， 当 一 端 主 动 打开 连接 并 且 应 用 程序 在 连 

接 建立 之 前 就 指定 了 MSG_EOF( 发 送 FIN) 时 就 进入 相应 的 加 星 状 态 。 在 这 种 情况 下 ， 客 

户 端 一 般 是 进入 SYN_SENT* 状 态 ，SYN_RCVD* 状 态 只 有 当 双 方 碰巧 同时 执行 打开 连 

接 操 作 的 偶然 情况 下 才 会 出 现 ， 关 于 这 一 点 我 们 在 卷 1 的 18.8 节 中 已 有 详细 讨论 。 

。ESTABLISHED*、CLOSE_WAIT*、LAST_ACK#*、FIN_WAIT_1* 和 CLOSING* 这 五 个 

状态 与 对 应 的 不 加 星 状 态 除 了 要 发 送 SYN 外 也 完全 相同 。 当 连接 处 于 这 五 个 状态 之 一 时 ， 

叫 作 已 经 半 同 步 了 。 当 接收 端 处 于 被 动 状 态 且 收 到 一 个 带 有 TAO 测试 、 可 选 数据 和 可 选 

FIN 的 SYN 报 文 段 时 ， 连 接 即 进入 这 些 加 星 状 态 (4.5 节 详细 描述 了 TAO 测试 )。 之 所 以 用 

半 同 步 这 个 词 ， 是 因为 一 旦 收 到 SYN， 接 收 端 就 认为 连接 已 经 建立 了 (因为 已 经 通过 了 

TAO 测 试 )， 尽 管 此 时 刚刚 完成 了 常规 三 次 握手 过 程 的 一 半 。 

图 2-7 给 出 了 加 星 状 态 和 对 应 的 常规 状态 。 对 于 每 个 可 能 的 状态 ， 图 中 还 列 出 了 所 发 送 的 
报 文 段 类 型 。 

我 们 将 会 看 到 ， 从 实现 的 角度 来 看 ， 这 些 加 星 的 状态 是 很 容易 处 理 的 。 除 了 要 保持 当前 
已 有 的 无 星 状 态 外 ， 在 每 个 连接 的 TCP 控 制 块 中 还 有 两 个 额外 的 标志 : 

*TF SENDFIN 表示 需要 发 送 FIN( 对 应 于 SYN_SENT* 状 态 和 SYN_RCVD* 状 态 )。 

*TF SENDSYN 表示 需要 发 送 SYN( 对 应 于 图 2-7 中 的 5 个 半 同 步 加 星 状 态 )。 


CLOSED 关闭 RST, ACK 

LISTEN 监听 连接 请 求 (被 动 打开 ) 

SYN_SENT 已 发 送 SYN( 主 动 打开 ) SYN SENT* SYN, FIN 

SYN RCVD 已 经 发 送 和 收 到 SYN 等 待 ACK SYN RCVD* SYN, FIN, ACK 
ESTABLISHED | 连接 已 经 建立 (数据 传输 ) ESTABLISHED* | SYN, ACK 


CLOSE WAIT | 收 到 FIN， 等 待 应 用 程序 关闭 CLOSE WAIT* | SYN, ACK 
FIN WAIT. 1 已 经 关闭 ， 发 送 FIN， 等 待 ACK 和 FIN ， FIN WAIT 1* SYN, FIN, ACK 
CLOSING 两 端 同时 关闭 ， 等 待 ACK CLOSING* SYN, FIN, ACK 
LAST ACK 收 到 FIN 已 经 关闭 ， 等 待 ACK LAST. ACK* SYN, FIN, ACK 
FIN. WAIT. 2 已 经 关闭 ， 等 待 FIN 

TIME_WAIT 主动 关闭 后 长 达 2MSL 的 等 待 状态 





图 2-7 TCP 根 据 不 同 的 当前 状态 (常规 或 加 星 ) 所 发 送 的 内 容 
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在 图 2-7 中 ， 加 星 状态 下 把 SYN 和 FIN 这 两 个 新 标志 置 于 开 状态 时 用 黑体 标 出 。 
2.6 ”小结 


T/TCP 的 核心 是 TAO， 即 TCP 加 速 打开 。 这 项 技术 使 得 T/TCP 服 务 器 收 到 T/TCP 客 户 的 
SYN 报 文 段 后 能 够 知道 这 个 SYN 是 新 的 ， 从 而 可 以 跳 过 三 次 握手 。 确 保 服 务 器 所 收 SYN 是 新 
SYN 的 技术 (TAO 测试 ) 是 为 主机 已 经 建立 的 每 个 连接 分 配 一 个 唯一 的 标识 符 : CC( 连 接 计 数 )。 
每 个 TI/TCP 主 机 都 要 把 与 每 一 个 对 等 主机 之 间 最 新 连接 的 CC 值 保留 一 段 时 间 。 如 果 所 收 SYN 
报 文 段 的 CC 值 大 于 从 对 等 主机 接收 的 最 新 CC 值 ， 那 么 TAO 测试 成 功 。 

T/TCP 定 义 了 3 个 新 的 选项 : CC、CCnew 和 CCecho。 所 有 选项 都 包含 一 个 长 度 字 段 (这 和 
RFC 1323 中 规定 的 其 他 选项 一 样 )， 使 不 认识 这 些 选项 的 TCP 实 现 能 跳 过 它们 。 如 果 某 个 连接 
使 用 了 T/TCP 协 议 ， 那 么 每 个 报 文 段 都 将 包含 CC 选项 (不 过 有 时 在 客户 的 SYN 报 文 段 中 用 
CCnew 代 将 CC)。 

T/TCP 加 入 了 一 个 全 局 内 核 变量 ， 还 在 每 主机 高 速 缓 存 中 加 入 了 3 个 变量 ， 并 为 正在 使 用 
的 每 个 连接 控制 块 增加 了 3 个 变量 。 本 书 中 讨论 的 T/TCP 实 现 利用 业已 存在 的 路 由 表 作 为 每 主 
机 高 速 缓存 。 

TCP 的 状态 变迁 图 有 10 个 状态 ，T/TCP 协 议 在 此 基础 上 还 增加 了 7 个 额外 的 状态 。 但 实际 
上 协议 实现 是 简单 的 : 由 于 新 的 状态 只 是 已 有 状态 的 扩充 ， 因 而 只 需要 为 每 个 连接 引入 两 个 
新 的 标志 ， 分 别 指示 是 否 需 要 发 送 一 个 SYN 报 文 段 以 及 是 否 需 要 发 送 一 个 FIN 报 文 段 ， 即 可 定 
义 7 种 新 的 状态 。 


第 3 章 T/TCP 使 用 举例 


3.1 概述 


本 章 中 我 们 将 通过 几 个 TATCP 应 用 程序 例子 来 学 习 如 何 使 用 这 3 个 新 引入 的 TCP 选 项 。 这 
几 个 例子 说 明 ，T/ATCP 是 如 何 处 理 以 下 几 种 情形 的 

* 客 户 重 新 启动 ; 

。 常 规 的 T/TCP 事 务 ， 

。 服 务 器 收 到 一 个 过 时 的 重复 SYN 报 文 段 ; 

。 服 务 器 重新 启动 ; 

* 请求 或 应 答 的 长 度 超过 报 文 段 最 大 长 度 ; 

。 与 不 支持 TATCP 协 议 的 主机 的 向 下 兼容 。 

下 一 章 我 们 还 将 研究 另外 两 个 例子 : SYN 报 文 段 到 达 服 务 器 没有 过 时 也 不 重复 ， 但 其 到 
达 的 顺序 错乱 ， 客 户 对 重复 的 服务 器 SYN/ACK 响 应 的 处 理 。 

这 些 例子 中 的 T/TCP 客 户 是 bsdi( 图 1-13)， 而 服务 器 则 是 laptop。 这 些 主机 上 运行 的 
T/TCP 客 户 程序 如 图 1-10 所 示 ; T/TCP 服 务 器 程序 如 图 1-11 所 示 。 客 户 程 序 发 出 长 度 为 300 字 
市 的 请 求 ， 服 务 器 则 给 出 长 度 为 400 字 节 的 应 答 。 

在 这 些 例子 中 ， 客 户 程 序 中 支持 RFC 1323 的 部 分 已 经 关闭 。 这 样 ， 在 客户 发 起 的 SYN 报 
文 段 中 就 不 会 含有 窗口 宽度 和 时 间 戳 选项 (由 于 只 要 客户 不 发 送 这 两 个 选项 ， 服 务 器 的 响应 中 
也 不 会 包含 这 两 个 选项 ， 因 此 服务 器 是 否 支持 REFC 1323 就 是 无 关 紧 要 的 )。 这 样 做 是 为 了 避免 
让 那些 与 我 们 讨论 的 主题 无 关 的 因素 把 例子 和 弄 得 太 复杂 。 但 在 正常 情况 下 ， 由 于 时 间 惟 选项 
可 以 防止 把 重复 的 报 文 段 误 认 为 是 当前 连接 的 报 文 段 ， 因 而 我 们 可 以 在 TITCP 应 用 中 支持 RFC 
1323。 也 就 是 说 ， 在 宽带 连接 和 大 数据 量 传送 的 情况 下 ， 即 便 是 T/TCP 协 议 也 一 样 需 要 防止 
序号 重合 ( 见 卷 1 的 24.6 节 )。 


3.2 客户 重新 启动 


客户 一 旦 启动 ， 客 户 一 服务 器 事务 过 程 也 就 开始 了 。 客 户 程序 调用 sendto 函 数 ， 即 在 路 
由 表 中 为 对 端 服 务 器 增加 一 个 表 项 ， 其 中 tao_ccsent 的 值 初始 化 为 0( 表 示 未 定义 )。 于 是 
TCP 协 议 就 会 发 送 CCnew 选 项 而 不 是 发 送 CC 选 项 。 服 务 器 上 的 TCP 协 议 收 到 CCnew 选 项 后 就 
执行 常规 的 三 次 握手 操作 ， 其 过程 可 见 图 3-1 所 示 的 Tcpdump 的 输出 (不 熟悉 Tcpdump 操 作 及 其 
输出 的 读者 可 参见 卷 1 的 附录 A。 在 跟踪 观察 这 些 分 组 的 时 候 ， 不 要 忘 了 SYN 和 FIN 在 序号 空 
间 中 各 占用 一 个 字 节 )。 

从 第 1 行 的 CCnew 选 项 可 以 看 出 ， 客 户 端 fcp_ccgen 的 值 为 1。 在 第 2 行 ， 服 务 器 对 客户 
的 CCnew 给 出 了 回应 ， 服 务 器 的 tcp_ccgen 值 为 18。 服 务 器 给 客户 的 SYN 发 出 确认 ， 但 不 确 
认 客 户 的 数据 。 由 于 收 到 了 客户 的 CCnew 选 项 ， 即 使 服务 器 在 其 单机 高 速 缓存 中 有 该 客户 的 
表 项 ， 它 也 必须 完成 正常 的 三 次 握手 过 程 。 只 有 当 三 次 握手 完成 以 后 ， 服 务 器 的 TCP 协 议 才 
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能 把 收 到 的 300 字 节 数 据 提交 给 当前 的 服务 进程 。 


.0 bsdi.1024 > laptop.8888: SFP 36858825:36859125(300) 

win 8568 «mss 1460,nop,nop,ccnew 1» 
.020542 . laptop.8888 » bsdi.1024: S 76355292:76355292(0) 

ack 36858826 win 8712 

«mss 1460,nop,nop,cc 18, 

nop,nop,ccecho 1» 
.021479 b bsdi.1024 > laptop.8888: F 301:301(0) 

ack 1 win 8712 «nop,nop,cc 1» 
.029471 à laptop.8888 » bsdi.1024: . 
ack 302 win 8412 «nop,nop,cc 18» 
.042086 š laptop.8888 > bsdi.1024: FP 1:401 (400) 

ack 302 win 8712 «nop,nop,cc 18> 


.042969 ` bsdi.1024 > laptop.8888: 





ack 402 win 8312 «nop,nop,cc 1» 


图 3-1 T/TCP 客 户 重启 后 向 服务 器 发 送 一 个 事务 

第 3 行 显示 的 是 三 次 握手 过 程 的 最 后 一 个 报 文 段 :客户 对 服务 器 发 出 SYN 的 确认 。 在 这 个 
报 文 段 中 客户 将 FIN 重 传 ， 但 不 包括 300 字 节 数 据 。 服 务 器 收 到 该 报 文 段 后 ， 立 刻 确 认 了 收 到 
的 数据 和 FIN( 第 4 行 )。 与 一 般 的 报 文 段 不 同 的 是 ， 这 个 确认 是 即时 发 出 的 ， 没 有 被 耽搁 。 这 
么 做 是 为 了 防止 客户 第 1 行 发 送 数 据 后 超时 而 重 传 。 

第 5 行 显示 的 是 服务 器 给 出 的 应 答 以 及 服务 器 的 FIN， 第 6 行 中 客户 对 服务 器 的 FIN 和 应 答 
都 做 了 确认 。 注 意 ， 第 3 一 6 行 中 都 有 CC 选项 ， 而 CCnew 和 CCecho 选 项 则 分 别 只 出 现在 第 1 和 
第 2 个 报 文 段 中 。 


从 现在 开始 ， 我 们 不 再 明确 地 在 T/TCP 报 文 段 中 标记 NOP 了 ， 因 为 NOP 不 是 必需 
的 ， 而 且 会 把 图 摘 复 杂 。 插 入 NOP， 使 选项 长 度 保 持 为 4 字 节 整数 倍 的 做 法 是 出 于 对 
提高 主机 性 能 的 考虑 。 

机 敏 的 读者 可 能 会 注意 到 ， 客 户 痛 刚刚 重新 启动 时 ， 客 户 TCP 协 议 所 用 的 初始 序 
号 (ISN) 与 卷 1 中 习题 18.1 所 讨论 的 一 般 模式 不 一 样 。 而 有 全， 服务 器 的 初始 序号 是 个 偶 
数 ， 这 在 通常 从 伯克利 演变 而 来 的 实现 中 是 从 来 没有 的 。 其 原因 在 于 这 里 的 连接 所 
使 用 的 初始 序号 是 随机 选取 的 ， 而且 每 隔 500 ms 对 内 核 的 初始 序号 所 加 的 增 量 也 是 
随机 的 。 这 种 改动 有 助 于 防止 序号 攻击 ， 有 具体 内 容 可 见 参 考 文 献 [Bellovin 1989], ix 
种 改动 是 1994 年 12 月 一 次 很 有 名 的 因特网 侵入 事件 发 生 后 ， 首 先 在 BSD/OS 2.0 然 后 
在 4.4BSD-Lite2 中 加 入 的 [Shimomura 1995], 


时 序 图 


图 3-2 给 出 的 是 图 3-1 所 描述 的 报 文 段 交换 过 程 的 时 序 图 。 

图 中 ， 包 含 数据 的 第 1 和 第 5 这 两 个 报 文 段 用 粗 黑 线 标记 。 图 的 两 侧 还 分 别 标注 了 客户 和 | 
服务 器 收 到 报 文 段 后 各 自发 生 的 状态 变迁 。 开 始 的 时 候 ， 客 户 进程 调用 senato 国 数 并 指定 
MSG_EOF 标 志 后 进入 SYN_SENT* 状 态 。 服 务 器 收 到 并 处 理 了 第 3 个 报 文 段 后 发 生 了 两 次 状态 
变迁 。 先 是 处 理 客户 对 服务 器 发 出 SYN 的 确认 后 ， 连 接 的 状态 由 SYN_RCVD 变 迁 到 
ESTABLISHED 状 态 ， 紧 接着 处 理 客户 发 来 的 FIN 又 变迁 到 CLOSE_WAIT 状 态 。 当 服务 器 向 客 
户 发 出 设置 了 MSG_EoPF 标 志 的 应 答 后 ， 即 进入 LAST_ACK 状 态 。 注 意 ， 客 户 在 第 3 个 报 文 段 
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中 重 传 了 FIN 标 志 ( 回 忆 一 下 图 2-7)。 


bsdi.1024 laptop.8888 










SYN SENT* 1 SYN,FIN,PSH 36858825:36859125(300) 


SYN RCVD 







292:76355292(0) 
SYN 76355 160, cc 18, ccecho 1> 






FIN WAIT 1 ack 36858826, «mss 1 
3 FIN 301:301(0) 
ack 1, «cc 1s ESTABLISHED, 
4 CLOSE. WAIT 
FIN. WAIT 2 ack 302, «cc 18> 





N PSH 1:401(400) 5LAST_ACK 


FI 
TIME_WAIT ack 302, «cc 18> 
z À l 
ack 402, ccc 1> CLOSED 
图 3-2 图 3-1 中 报 文 段 交 换 过 程 的 时 序 图 


3.3 常规 的 T/TCP 事 务 





下 面 我 们 还 是 在 上 面 那 对 客户 和 服务 器 之 间 发 起 另 一 次 事务 。 这 一 次 客户 在 自己 的 单机 高 速 
缓存 中 取 到 该 服务 器 的 tao_ccsent 值 非 0， 于 是 就 发 出 一 个 CC 选项 ， 其 中 下 一 个 tcp_ccgen 的 
| (2 表示 这 是 客户 端 重新 启动 后 TCP 协 议 建立 的 第 2 个 连接 )。 报 文 段 交换 的 过 程 如 图 3-3 所 示 。 











bsdi.1025 > laptop.8888: SFP 40203490:40203790(300) 


win 8712 «mss 1460,cc 2» 

SFP 79578838:79579238 (400) 
ack 40203792 win 8712 
«mss 1460,cc 19,ccecho 2» 

3 0.027573 (0.0011) bsdi.1025 » laptop.8888: . 

ack 402 win 8312 «cc 2» 







2 0.026469 (0.0265) laptop.8888 » bsdi.1025: 


图 3-3 常规 的 T/TCP 客 户 一 服务 器 事务 


这 是 一 个 常规 的 、 仅 包含 3 个 报 文 段 的 最 小 规模 T/TCP 报 文 交 换 过 程 。 图 3-4 显 示 了 该 次 报 
| na 过 程 。 

客户 发 出 包含 SYN 标 志 、 数 据 和 FIN 标 志 的 报 文 段 后 进入 SYN_SENT* 状 态 。 服 务 器 收 到 
该 报 文 段 ， 且 TAO 测试 成 功 时 ， 进 入 半 同 步 的 ESTABLISHED*# 状 态 。 其 中 的 数据 经 处 理 后 交 
给 服务 器 进程 。 接 着 处 理 完 报 文 段 的 FIN 标 志 后 服务 器 进入 CLOSE_WAIT* 和 状态。 由 于 还 未 发 
出 SYN 报 文 段 ， 因 而 服务 器 一 直 都 处 于 加 星 状 态 。 当 服务 器 发 出 应 答 并 在 其 中 设置 MSG_EOF 
标志 后 ， 服 务 器 端 随即 转 入 LAST_ACK* 状 态 。 如 图 2-7 所 示 ， 这 个 状态 的 服务 器 发 出 的 报 文 
段 中 包含 了 SYN、FIN 和 ACK 标 志 。 
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bsdi.1025 laptop.8888 


SYN_SENT* 1 SYN .FIN,PSH 40203490: 


T22203790(300) 


ESTABLISHED*, 
CLOSE WAIT* 


SYN,FIN,PSH 79578838: :79579238(400) 2LAST ACK* 
FIN. WAIT 1, 1020 792, win 87 2, «mss 14 60, cc 17, 
FIN WAIT 2, 
TIME WAIT 3 


ack 402, win 8312 «cc 2> 


LAST ACK, 
CLOSED 





图 3-4 图 3-3 中 报 文 段 交 换 的 时 序 图 


客户 收 到 第 2 个 报 文 段 后 ， 基 中 对 SYN 的 确认 使 客户 端的 连接 状态 转 入 FIN_WAIT_1 状 态 。 
接着 客户 处 理 报 文 段 中 对 所 发 FIN 的 确认 ， 并 进入 FIN_WAIT_2 状 态 。 服 务 器 的 应 答 则 送 到 客 
户 进 程 。 然 后 ， 客 户 处 理 该 报 文 段 中 服务 器 所 发 的 FIN 后 进入 TIME_WAIT 状 态 。 在 这 个 最 终 
的 状态 ， 客 户 发 出 对 服务 器 所 发 FIN 的 确认 。 

服务 器 收 到 第 3 个 报 文 段 后 , 其 中 对 服务 器 所 发 SYN 的 确认 使 服务 器 进入 LAST_ACK 状 态 ， 
对 服务 器 所 发 FIN 的 确认 则 使 服务 器 进入 CLOSED 状 态 。 

这 个 例子 清晰 地 显示 了 在 T/TCP 事 务 过 程 中 收 到 一 个 报 文 段 是 怎样 引起 多 次 状态 变迁 
的 。 它 同时 也 显示 了 尚 不 处 于 ESTABLISHED 状 态 的 进程 是 如 何 接收 数据 的 : 客户 进程 半 关 
闭 (发 出 第 1 个 报 文 段 ) 与 服务 器 的 连接 ， 处 于 FIN_WAIT_1 状 态 下 ,但 仍然 能 接收 数据 (第 2 个 
报 文 段 )。 


3.4 服务 器 收 到 过 时 的 重复 SYN 


如 果 服 务 器 收 到 了 一 个 看 似 过 时 的 CC 值 该 怎么 办 呢 ? 我 们 让 客户 发 出 一 个 CC 值 为 1 的 
SYN 报 文 段 ， 这 个 值 小 于 服务 器 刚刚 从 该 客户 收 到 的 CC 值 (2， 见 图 3-3)。 事 实 上 ， 这 种 情况 
也 是 可 能 发 生 的 ， 比 如 : CC 值 等 于 1 的 这 个 报 文 段 属于 客户 和 服务 器 之 间 此 前 某 个 连接 ， 它 
在 网 络 上 耽搁 了 一 段 时 间 ， 但 还 没有 超过 其 报 文 段 最 大 生存 时 间 ( 发 出 后 MSL 秒 )， 最 终 到 达 
了 服务 器 。 

一 个 连接 是 由 一 对 插口 定义 的 ， 即 包含 客户 端 了 地址 和 端口 号 及 服务 器 端 I 了 地址 和 端口 
号 的 四 元 组 。 连 接 的 新 实例 称 为 该 连接 的 “替身 ”。 

从 图 3-5 我 们 可 以 看 出 ， 服 务 器 收 到 一 个 CC 值 为 1 的 SYN 报 文 段 后 强迫 执行 三 次 握手 操作 ， 
因为 它 无 法 判断 该 报 文 段 是 过 时 重复 的 还 是 新 的 。 

由 于 激活 了 三 次 担 手 (这 一 点 我 们 可 以 从 服务 器 仅仅 确认 了 客户 的 SYN 而 没有 确认 客户 的 数 
据 来 判断 )， 服 务 器 的 TCP 协 议 在 握手 过 程 完全 结束 以 后 才 会 把 300 字 节 的 数据 提交 给 服务 器 进程 。 

本 例 中 ， 第 1 个 报 文 段 就 是 一 个 过 时 的 重复 报 文 段 (客户 的 TCP 此 时 并 不 在 等 待 对 这 个 报 文 
段 中 SYN 的 响应 )， 于 是 当 第 2 个 报 文 段 中 服务 器 发 出 的 SYN/ACK 到 达 时 ， 客 户 端 TCP 协 议 的 
响应 是 要 求 重 新 建立 连接 (RST， 第 3 个 报 文 段 )。 这 样 做 也 是 理 所 应 当 的 。 服 务 器 的 TCP 协 议 
收 到 这 个 RST 后 就 扔 掉 那 300 字 节 的 数据 ， 而 且 accept 函 数 也 不 返回 到 服务 器 进程 。 
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bsdi.1027 > laptop.8888: SFP 80000000:80000300(300) 
win 4096 «mss 1460,cc 1» 


2 0.018391 (0.0184) laptop.8888 » bsdi.1027: S 132492350:132492350(0) 


ack 80000001 win 8712 
«mss 1460,cc 21,ccecho 1» 


3 0.019266 (0.0009) bsdi.1027 > laptop.8888: R 80000001:80000001(0) win 0 


图 3-5 T/TCP 服 务 器 收 到 过 时 的 重复 SYN 报 文 段 





第 1 个 报 文 段 是 由 一 个 特殊 的 测试 程序 生成 的 。 我 们 无 法 让 客户 的 T/TCP 协 议 自 
已 生成 这 样 的 报 文 段 ， 而 只 能 让 它 以 过 时 的 重复 报 文 段 出 现 。 作 者 曾 试 着 把 内 核 的 
tcp_ccgen 变 量 值 改 为 1， 但 是 ， 正 如 我 们 将 在 图 12-3 中 看 到 的 ， 当 内 核 的 
tcp_ccgen 小 于 它 最 近 一 次 发 给 对 端的 CC 值 时 ，TCP 协 议 自 动 地 发 送 一 个 CCnew 选 
项 而 不 是 发 送 一 个 CC 选项 。 


图 3-6 所 示 的 就 是 这 对 客户 一 服务 器 之 间 的 下 一 次 ， 也 是 常规 的 一 次 T/TCP 事 务 。 正 如 我 
们 所 预期 的 ， 这 是 一 个 包含 3 个 报 文 段 的 交换 过 程 。 


bsdi.1026 > laptop.8888: SFP 101619844:101620144(300) 
win 8712 «mss 1460,cc 3» 


2 0.028214 (0.0282) laptop.8888 > bsdi.1026: SFP 140211128:140211528 (400) 


ack 101620146 win 8712 
«mss 1460,cc 22,ccecho 3» 


3 0.029330 (0.0011) bsdi.1026 » laptop.8888: . 
ack 402 win 8312 «cc 3» 


图 3-6 常规 的 T/TCP 客 户 一 服务 器 事务 
服务 器 希望 这 个 客户 发 来 的 CC 值 大 于 2， 因 此 收 到 CC 值 为 3 的 SYN 后 TAO 测 试 成 功 。 


3.5 服务 器 重启 动 


现在 我 们 将 服务 器 重新 启动 ， 并 让 客户 在 服务 器 刚 启动 ， 即 服务 器 监听 进程 刚 开 始 运行 
的 时 候 就 立即 发 送 一 个 事务 请 求 。 图 3-7 为 报 文 段 交换 的 情况 。 


.0 bsdi.1027 » laptop.8888: SFP 146513089:146513389(300) 
win 8712 «mss 1460,cc 4» 


.025420 1 arp who-has bsdi tell laptop 
.025872 . arp reply bsdi is-at 0:20:af:9c:ee:95 


.033731 ; laptop.8888 > bsdi.1027: S 27338882:27338882 (0) 
ack 146513090 win 8712 
<mss 1460,cc 1,ccecho 4> 





.034697 5 bsdi.1027 > laptop.8888: F 301:301(0) 
ack 1 win 8712 «cc 4» 


.044284 5 laptop.8888 > bsdi.1027: . 
ack 302 win 8412 <cc 1> 


.066749 ; laptop.8888 » bsdi.1027: FP 1:401(400) 
ack 302 win 8712 «cc 1» 


.067613 s bsdi.1027 » laptop.8888: . 
ack 402 win 8312 «cc 4» 


图 3-7 服务 器 刚刚 重启 动 后 T/TCP 的 交换 分 组 情况 
由 于 客户 并 不 知道 服务 器 已 经 重新 启动 了 ， 因 而 它 发 出 的 仍 是 一 个 常规 的 TITCP 请 求 ， 其 
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中 CC 值 为 4( 见 第 1 行 )。 服 务 器 重新 启动 使 其 ARP 缓 存 中 的 客户 硬件 地 址 丢失 ， 于 是 服务 器 发 
出 一 个 ARP 请 求 ， 客 户 给 出 应 答 。 服 务 器 强迫 执行 三 次 担 手 操作 ( 见 第 4 行 )， 因 为 它 不 记得 上 
次 从 该 客户 收 到 的 连接 计数 值 CC。 

与 我 们 在 图 3-1 中 看 到 的 类 似 ， 客 户 发 出 一 个 带 有 FIN 标 志 的 确认 报 文 段 完 成 三 次 握手 过 
程 ，300 字 节 的 数据 则 不 重 传 。 只 有 当 客户 端的 重 传 定时 器 超时 时 客户 才 会 重 传 数 据 ， 我 们 将 
在 图 3-11 中 看 到 这 种 情况 。 收 到 第 3 个 报 文 段 后 ， 服 务 器 立即 对 数据 和 FIN 发 出 确认 。 服 务 器 
发 出 应 答 ( 见 第 7 行 )， 第 8 行 则 是 客户 给 出 的 确认 。 

看 过 图 3-7 那 样 的 报 文 交 换 过 程 后 ， 我 们 来 看 看 客户 和 服务 器 之 间接 下 来 继续 通信 时 的 一 
个 最 小 T/TCP 事 务 ， 如 图 3-8 所 示 。 


bsdi.1028 > laptop.8888: SFP 152213061:152213361 (300) 
win 8712 «mss 1460,cc 5» 


laptop.8888 » bsdi.1028: SFP 32869470:32869870(400) 
ack 152213363 win 8712 


«mss 1460,cc 2,ccecho 5» 


3 0.035955 (0.0011) bsdi.1028 » laptop.8888: . 
ack 402 win 8312 «cc 5» 





图 3-8 ”常规 的 T/TCP 客 户 一 服务 器 事务 


3.6 请 求 或 应 答 超出 报 文 段 最 大 长 度 


到 目前 为 止 ， 在 我 们 所 举 的 所 有 例子 中 ， 无 论 是 客户 的 请 求 报 文 段 还 是 服务 器 的 应 答 报 
文 段 ， 都 没有 超过 报 文 段 最 大 长 度 (MSS)。 如 果 客 户 要 发 送 超出 报 文 段 最 大 长 度 的 数据 ， 而 且 
也 确信 对 等 端 支持 T/TCP 协 议 ， 那 么 它 就 会 发 送 多 个 报 文 段 。 由 于 对 等 端的 报 文 段 最 大 长 度 
存储 在 TAO 高 速 缓存 中 (图 2-5 的 tao_mssopt)， 因 而 客户 的 TCP 协 议 能 够 知道 服务 器 的 报 文 
段 最 大 长 度 ， 但 无 法 知道 服务 器 的 接收 窗口 宽度 ( 卷 1 的 18.4 节 和 20.4 节 分 别 讨论 了 报 文 段 最 大 
长 度 和 窗口 宽度 )。 对 一 个 特定 的 主机 来 说 ， 报 文 段 最 大 长 度 一 般 是 一 个 固定 值 ， 而 接收 窗口 
的 宽度 却 会 随 应 用 程序 改变 其 插口 接收 缓存 的 大 小 而 相应 地 变化 。 而 且 ， 即 使 对 等 端 告知 了 
一 个 较 大 的 接收 窗口 (比如 说 ，32 768 字 节 )， 但 如 果 报 文 段 最 大 长 度 为 512 字 节 ， 那 么 很 可 能 
会 有 一 些 中 间 路 由 器 无 法 处 理 客户 一 下 子 发 给 服务 器 的 前 64 个 报 文 段 ( 即 ，TCP 协 议 的 慢 启动 
是 不 能 跳 过 的 )。T/TCP 协 议 加 了 两 条 限制 来 解决 这 些 问 题 : 
1) T/TCP 协 议 将 刚 开始 时 的 发 送 窗口 宽度 设 定 为 4096 字 节 。 在 Net/3 中 ， 这 就 是 变量 
snd_wnd 的 值 。 该 变量 控制 着 TCP 输 出 流 可 以 发 出 多 少数 据 。 当 对 等 端 带 有 窗口 通告 
的 第 1 个 报 文 段 到 达 后 ， 窗 口 宽度 的 初始 值 4096 将 被 改变 为 所 需 值 。 

2) 只 有 当 对 等 端 不 在 本 地 时 ，T/TCP 协 议 才 使 用 慢 启 动 方式 开始 通信 。TCP 协 议 将 
snd_cwnd 变 量 设置 为 1 个 报 文 段 时 就 是 慢 启 动 。 图 10-14 给 出 了 本 地 / 非 本 地 测试 程序 ， 
以 内 核 的 ijn_localadqdr 函 数 为 基础 。 如 果 与 本 机 拥有 相同 的 网 络 号 和 子 网 号 ， 或 者 
虽然 网 络 号 相同 子 网 号 不 同 ， 但 内 核 的 subnetsarelocal 变 量 值 非 0， 这 样 的 对 等 
主机 就 是 本 地 主机 。 l 
Net/3 总 是 用 慢 启 动 方式 开始 每 一 条 连接 ( 卷 2 第 721 页 )， 但 这 样 就 使 客户 在 启动 事务 时 
无 法 连续 发 出 多 个 报 文 段 。 折 中 的 结果 是 ， 人 允许 向 本 地 的 对 等 主机 发 送 多 个 报 文 段 ， 
但 最 多 4096 字 节 。 
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每 次 调用 TCP 协 议 的 输出 模块 ， 它 总 是 选择 snd_wnd 和 snd_cwnd 中 较 小 的 一 个 作为 其 
可 发 送 数据 量 的 上 限 值 。 前 者 的 初始 值 为 TCP 滑 动 窗口 通告 中 的 最 大 值 ， 我 们 假设 为 65 535 字 
节 ( 如 果 使 用 窗口 宽度 选项 ， 那 么 这 个 最 大 值 可 以 为 65 535 x 2"， 大 约 为 1GB)。 如 果 对 等 主机 
在 本 地 ， 那 么 snd_wnd 和 snd_cwnd 的 初始 值 分 别 为 4 096 和 65 535。TCP 协 议 在 连接 刚 开始 
时 还 未 收 到 对 方 的 窗口 通告 前 ， 可 以 发 出 至 多 4096 字 节 的 数据 。 如 果 对 方 通告 的 窗口 宽度 为 
32768 字 节 ， 那 么 TCP 协 议 可 以 持续 发 送 数据 直到 对 等 主机 的 接收 窗口 满 为 止 (因为 
32 768 和 65 535 的 小 值 是 32 768)。 这 样 ，TCP 协 议 既 可 以 避 开 慢 启动 过 程 ， 发 送 数据 量 又 可 以 
受 限于 对 方 通告 的 窗口 宽度 。 

如 果 对 等 主机 不 在 本 地 ， 那 么 snd_wnd 的 初始 值 仍 为 4096， 但 snd_cwnd 的 初始 值 则 为 1 
个 报 文 段 (假设 保存 的 对 等 主机 报 文 段 最 大 长 度 为 512)。TCP 协 议 在 连接 一 开始 的 时 候 只 能 发 
出 一 个 报 文 段 ， 当 收 到 对 等 主机 的 窗口 通告 后 ， 每 收 到 一 个 确认 ，snd_wnd 的 值 就 加 1。 这 
时 慢 启 动机 制 在 起 作用 ， 可 以 发 出 的 数据 量 受 限于 拥塞 窗口 ， 直 至 拥塞 窗口 宽度 超过 了 对 等 
主机 通告 的 接收 窗口 。 

作为 一 个 例子 ， 我 们 对 第 1 章 中 的 T/TCP 客 户 和 服务 器 程序 加 以 修改 ,使 请 求 和 应 答 中 的 
数据 量 分 别 为 3300 字 节 和 3400 字 市 。 图 3-9 给 出 了 分 组 交换 过 程 。 


这 个 例子 要 显示 T/TCP 交 换 的 多 个 报 文 段 的 序列 号 ,恰好 暴露 了 Tcpdump 的 一 个 
输出 bug。 第 6、 第 8 和 第 10 个 报 文 段 的 确认 号 应 当 输 出 3302 而 不 是 1。 


bsdi.1057 > laptop.8888: S 3846892142:3846893590(1448) 
win 8712 «mss 1460,cc 7» 
.001556 f bsdi.1057 > laptop.8888: . 3846893591:3846895043 (1452) 
win 8712 «cc 7> 
.002672 s bsdi.1057 » laptop.8888: FP 3846895043:3846895443(400) 
win 8712 «cc 7» 


.138283 . laptop.8888 » bsdi.1057: S 3786170031:3786170031(0) 
ack 3846895444 win 8712 
«mss 1460,cc 6,ccecho 7» 

.139273 ; bsdi.1057 » laptop. 5 

ack 1 win 8712 «cc 7» 


.179615 5 laptop.8888 > bsdi. z 1221453(1452) 

ack 1 win 8712 «cc 6» 
.180558 5 bsdi.1057 > laptop. ; 
ack 1453 win 7260 «cc 7» 


.209621 ^ laptop.8888 » bsdi. : . 1453:2905(1452) 
ack 1 win 8712 «cc 6» 


.210565 : bsdi.1057 > laptop. 


ack 2905 win 7260 «cc 7» 


.223822 P laptop.8888 > bsdi. : FP 2905:3401(496) 
ack 1 win 8712 «cc 6» 
.224719 s bsdi.1057 » laptop 





nik 3402 win 8216 «cc 7» 
图 3-9 3300 字 节 的 客户 请 求 和 3400 字 节 的 服务 器 应 答 
由 于 客户 知道 服务 器 支持 TATCP 协 议 ， 客 户 可 以 立即 发 出 4096 字 节 。 在 前 2.6 ms 的 时 间 里 ， 


客户 发 出 了 第 1~3 个 报 文 段 。 第 1 个 报 文 段 携带 了 SYN 标 志 、1448 字 节 数 据 和 12 字 节 TCP 选 项 
(MSS 和 CC)。 第 2 个 报 文 段 没 有 带 标志 ， 只 有 1452 字 节 数 据 和 8 字 节 TCP 选 项 。 第 3 个 报 文 段 扒 
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带 FIN 和 PSH 标 志 、8 字 节 TCP 选 项 以 及 剩余 的 400 字 节 数 据 。 第 2 个 报 文 段 是 唯一 一 个 设 有 设置 
任何 TCP 标 志 (共有 6 个 标志 )， 甚 至 不 带 ACK 标 志 的 报 文 段 。 通 常情 况 下 ，ACK 标 志 总 是 要 携 
带 的 ， 除 非 是 客户 端 主动 打开 ， 此 时 的 报 文 段 带 有 SYN 标 志 ( 在 收 到 服务 器 的 报 文 段 之 前 ， 客 
户 是 绝 不 能 发 出 任何 确认 的 )。 

第 4 个 报 文 段 是 服务 器 的 SYN 报 文 段 ， 它 同时 也 对 客户 所 发 来 的 所 有 内 容 做 出 了 确认 ， 包 
括 SYN 标 志 、 数 据 和 FIN 标 志 。 在 第 5 个 报 文 段 中 ， 客 户 立 即 确认 了 服务 器 的 SYN 报 文 段 。 

第 6 个 报 文 段 晚 了 40 ms 才 到 达 客 户 端 ， 它 携带 了 服务 器 应 答 的 第 1 段 数据 。 客 户 立 即 对 此 
给 出 了 确认 。 第 8~11 个 报 文 段 继续 同样 的 过 程 。 服 务 器 的 最 后 一 个 报 文 段 ( 第 10 行 ) 带 有 FIN 标 
志 ， 客 户 发 出 的 最 后 一 个 ACK 报 文 段 对 这 最 后 的 数据 以 及 FIN 标 志 做 了 确认 。 

一 个 问题 是 : 为 什么 客户 对 3 个 服务 器 应 答 报 文中 的 前 两 个 立即 给 出 了 确认 ? 是 因为 它们 
在 很 短 的 时 间 (44 ms) 内 就 到 达 了 吗 ? 答案 在 TCP_REASS 宏 ( 卷 2 第 726 页 ) 中 ， 客 户 每 收 到 一 个 
带 有 数据 的 报 文 段 就 要 调用 该 宏 。 由 于 连接 的 客户 端 处 理 完 第 4 个 报 文 段 后 就 进入 了 
FIN_WAIT_2 状 态 ， 于 是 在 TCP_REASS 宏 中 对 连接 是 否 处 于 ESTABLISHED 状 态 的 测试 失败 ， 
从 而 使 客户 端 立即 发 出 ACK 而 不 是 延迟 一 会 儿 再 发 。 这 一 “特性 ”并 非 TATCP 协 议 所 独 有 ， 
在 Net/3 的 程序 中 ， 如 果 任 何 一 端 半 关闭 了 TCP 连 接 而 进入 FIN_WAIT_1 或 FIN_WAIT_2 状 态 ， 
都 会 出 现 这 种 情形 。 从 此 以 后 ;， 来自 对 等 主机 的 每 一 个 数据 报 文 段 都 立即 给 予 确认 。 
TCP_REASS 宏 中 对 是 否 已 进入 ESTABLISHED 状 态 的 测试 使 协议 无 法 在 三 次 握手 完成 之 前 把 
数据 提交 给 应 用 程序 。 实 际 上 ， 当 连接 状态 大 于 ESTABLISHED 时 ,没有 必要 立刻 确认 按 序 收 
到 的 每 个 报 文 段 ( 即 ， 应 当 修 改 这 种 测试 )。 


TCP_NOPUSH 插 口 选 项 


运行 该 示例 程序 之 前 需要 对 客户 程序 再 做 一 些 修改 。 下 面 这 段 程 序 打开 了 TCP_NOPUSH 
插口 选项 (T/TCP 协 议 新 引入 的 选项 ): 
int mn; 


nux1; 
if (setsockopt(sockfd, IPPROTO TCP, TCP NOPUSH, (char *) &n, sizeof(n)) « 0) 
err Sys("TCP NOPUSH error"); 


这 段 程序 在 图 1-10 中 调用 socket 国 数 之 后 执行 。 设 置 该 选项 的 目的 是 告诉 TCP 协 议 不 要 
仅仅 为 了 清空 发 送 缓 存 而 发 送 报 文 段 。 
如 果 要 了 解 设置 该 插口 选项 的 原因 ， 我 们 必须 跟踪 用 户 进 程 调用 sendto 函数 请 求 发 送 
3 300 字 节 数 据 并 设置 MSG_EOF 标 志 后 内 核 所 执行 的 动作 。 
1) 内 核 最 终 要 调用 sosenda 国 数 ( 卷 2 的 16.7 节 ) 来 处 理 输出 请 求 。 它 把 前 2 048 字 节 数 据 放 
入 一 个 mbuf 徐 中 ， 并 向 TCP 协 议 发 出 一 个 PRU_SEND 请 求 。 
2) 于 是 内 核 调 用 tcp_output 函 数 (图 12-4)。 由 于 可 以 发 送 一 个 满 长 度 (full-sized) 的 报 文 
段 ， 因 此 发 出 mbuf 徐 中 的 前 1448 字 节 数 据 ， 并 设置 SYN 标 志 ( 该 报 文 段 中 包含 12 字 节 的 
TCP 选 项 )。 
3) 由 于 mbuf 徐 中 还 剩 下 600 字 节 数 据 ， 于 是 再 次 循环 调用 tcp_output 了 函数。 我们 也 许 
会 认为 Nagle 算 法 将 不 会 使 另 一 个 报 文 段 发 送出 去 ， 但 是 注意 卷 2 第 681 页 可 以 看 到 ， 第 
1 次 执行 tcp_output 国 数 后 ，idle 变 量 的 值 为 1。 当 程序 发 出 长 为 1448 字 节 的 第 1 个 
报 文 段 后 进入 again 分 支 时 ，idle 变 量 没 有 重新 计算 。 因 此 ， 程 序 在 图 9-3 所 示 程 序 
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段 (“ 发 送 方 的 糊涂 窗口 避免 (sender silly window avoidance)”) 中 结束 。 如 果 idle 变 量 
为 真 ， 待 发 送 的 数据 将 把 插口 发 送 缓存 清空 ， 因 此 ， 决 定 是 否 发 送 报 文 段 的 是 
TF_NOPUSH 标 志 的 当前 值 。 

在 T/TCP 协 议 引 入 这 个 标志 以 前 ， 如 果 某 个 报 文 段 要 清空 插口 的 发 送 缓存 ， 并 且 Nagle 
算法 允许 ， 这 有 段 程 序 就 总 是 会 发 送 一 个 不 满 长 的 报 文 段 。 但 是 如 果 应 用 程序 设置 了 
TF_NOPUSH 标 志 ( 利 用 新 的 TF_NOPUSH 插 口 选项 )， 这 时 TCP 协 议 就 不 会 仅仅 为 清空 发 
送 缓存 而 强迫 发 出 数据 。TCP 协 议 将 允许 现 有 的 数据 与 后 面 写 操作 补充 来 的 数据 结合 
起 来 ， 以 期 发 出 较 大 的 报 文 段 。 

4) 如 果 应 用 程序 设置 了 TCP_NOPUSH 标 志 ， 那 就 不 会 发 送 报 文 段 ， 上 tcp_output 国 数 返 
回 ， 程序 执行 的 控制 权 又 回 到 sosend 函 数 。 

如 果 应 用 程序 没有 设置 TCP_NOPUSH 标 志 ， 那 么 协议 就 发 出 那个 600 字 节 的 报 文 段 ， 并 
在 其 中 设置 PSH 标 志 。 
5) sosend 国 数 把 剩余 的 1252 字 节 数 据 放 入 一 个 mbuf 徐 ， 并 发 出 一 个 PRU_SEND_BEOP 请 
求 (图 5-2)， 该 请 求 再 次 结束 cp_output 国 数 的 调用 。 然 而 在 这 次 调用 之 前 ， 已 经 调 
用 过 tcPp_usrecelosed 畏 数 ( 图 12-4)， 使 连接 的 状态 由 SYN_SENT 变 迁 至 
SYN_SENT*( 图 12-5)。 设 置 了 TF_NOPUSH 标 志 后 ， 当 前 插口 发 送 缓 存 中 共有 1852 字 
节 的 数据 ， 于 是 协议 又 发 出 一 个 满 长 度 的 报 文 段 ， 该 报 文 段 包含 1452 字 节 数 据 和 8 字 节 
TCP 选 项 (如 图 3-9 所 示 )。 之 所 以 发 出 该 报 文 段 ， 就 是 因为 它 是 满 长 度 的 ( 即 Nagle 算 法 
不 起 作用 )。 尽 管 SYN_SENT* 状 态 的 标志 中 包含 了 FIN 标 志 ( 图 2-7)， 但 由 于 发 送 缓存 中 
还 有 额外 的 数据 ， 因 此 FIN 标 志 被 关 掉 了 ( 卷 2 第 683 页 )。 
6) 程序 又 执行 了 一 次 循环 ， 从 而 再 次 调用 tcp_output 函数 发 送 缓存 中 剩余 的 400 字 节 
数据 。 然 而 这 一 回 FIN 标 志 是 打开 的 ， 因 为 发 送 缓存 已 经 空 了 。 尽 管 图 9-3 中 的 Nagle 
算法 不 允许 发 出 数据 ， 但 由 于 设置 了 FIN 标 志 ，400 字 节 的 报 文 段 还 是 发 出 去 了 ( 卷 2 第 
688 页 )。 
本 例 中 ， 设 置 了 TCP_NOPUSH 插 口 选项 之 后 ,在 报 文 段 最 大 长 度 为 1460 字 节 的 以 太 网 
上 发 出 一 个 3300 字 节 的 请 求 就 引发 出 3 个 报 文 段 ， 长 度 分 别 为 1448、1452 和 400 字 节 。 如 果 
不 设置 该 选项 ， 那 么 仍然 会 有 3 个 报 文 段 ， 但 其 长 度 分 别 为 1448、600 和 1252 字 节 。 但 如 果 
请 求 的 长 度 为 3600 字 节 ， 则 设置 了 TCP_NOPUSH 选 项 时 产生 3 个 报 文 段 (长 度 分 别 为 1448、 
1452 和 700 字 节 )， 而 不 设置 该 选项 就 会 产生 4 个 报 文 段 (长 度 分 别 为 1448、600、1452 和 100 
字 节 )。 

总 之 ， 当 客户 程序 仅 调用 一 次 sendto 函 数 发 出 请 求 时 ， 通常 应 该 设置 TCP_NOPUSH 插 
口 选 项 。 这 样 ， 当 请 求 长 度 超过 报 文 段 最 大 长 度 时 ， 协 议 就 会 尽 可 能 发 出 满 长 度 的 报 文 段 。 
这 样 可 以 减少 报 文 段 的 数量 ， 减 少 的 程度 取决 于 每 次 发 送 的 数据 量 。 


3.7 向 后 兼容 性 


我 们 还 需要 研究 一 下 如 果 客 户 用 TATCP 协 议 给 一 台 不 支持 T/TCP 协 议 的 主机 发 送 数据 会 发 
生 什么 情况 。 

图 3-10 显 示 的 就 是 主机 bsdi 上 的 T/TCP 客 户 程序 向 主机 svz4( 一 个 运行 System V 版 本 4 的 
主机 ， 不 支持 T/TCP) 上 的 TCP 服 务 器 发 起 事务 时 ， 它 们 二 者 之 间 分 组 交换 的 情况 。 
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«0 bsdi.1031 K : SFP 2672114321:2672114621 (300) 
win 8568 <mss 1460,ccnew 10> 


.006265 š svr4.8888 x : S 879930881:879930881 (0) 
ack 2672114322 win 4096 <mss 1024> 


.007108 " bsdi.1031 : F 301:301(0) 
ack 1 win 9216 


.012279 s svr4.8888 


ack 302 win 3796 


.071683 s svr4.8888 y : P 1:401(400) 
ack 302 win 4096 


.072451 s bsdi.1031 £ 
ack 401 win 8816 


.078373 è svr4.8888 à : F 401:401(0) 
ack 302 win 4096 


.079642 < bsdi.1031 " 
ack 402 win 9216 





图 3-10 T/TCP 客 户 程序 向 TCP 服 务 器 发 起 事务 


客户 端的 TCP 程 序 发 出 的 第 1 个 报 文 段 中 包含 了 SYN、FIN 和 PSH 标 志 ， 还 包含 了 300 字 节 
数据 。 由 于 客户 端的 TCP 协 议 在 其 TAO 高 速 缓存 中 还 没有 该 服务 器 主机 svr4 的 连接 计数 (CC) 
值 ， 因 而 它 发 出 的 报 文 段 中 带 上 了 CCnew 选 项 。 图 中 第 2 行 就 是 服务 器 对 该 报 文 段 的 响应 ， 这 
是 标准 三 次 握手 过 程 中 的 第 2 个 报 文 段 ， 而 客户 端 在 第 3 行 中 对 该 响应 做 出 了 确认 。 注 意 ， 第 3 
行 中 没有 重 传 数 据 。 

服务 器 端 收 到 第 3 行 的 报 文 段 后 ， 立 即 确认 了 客户 一 开始 发 过 来 的 300 字 节 数 据 和 FIN 标 志 
(如 卷 2 第 791 页 所 示 ， 对 FIN 的 确认 从 不 推迟 )。 服 务 器 端 TCP 将 上 述 数据 保存 在 队列 中 ， 直 至 
三 次 担 手 过 程 结 束 才 将 其 交 给 服务 进程 。 

第 5 行 显示 的 是 服务 器 给 出 的 响应 (400 字 节 数 据 )， 客 户 端 在 第 6 行 中 立刻 对 此 做 出 了 确认 。 
第 7 行 显示 的 是 服务 器 发 出 的 FIN 报 文 段 ， 客 户 端 同样 也 迅速 地 做 出 了 确认 。 注 意 ， 服 务 器 进 
程 无 法 把 第 5 行 的 数据 和 第 7 行 的 FIN 结 合 在 一 起 发 送 。 

如 果 我 们 还 是 在 这 一 对 客户 和 服务 器 之 间 再 发 起 一 次 事务 ， 则 报 文 段 交 换 的 顺序 与 上 一 
次 完全 相同 。 由 于 在 图 3-10 中 服务 器 端 并 没有 发 回 一 个 CCecho 选 项 ， 因 此 客户 端 仍然 无 法 向 
svr4 主 机 发 出 带 有 CC 选项 的 报 文 段 ， 从 而 客户 端 发 出 的 第 1 个 报 文 段 ( 即 初始 化 报 文 段 ) 仍 然 
带 有 CCnew 选 项 ， 其 值 为 11。 支 持 T/TCP 的 客户 端 总 是 发 出 CCnew 选 项 的 原因 是 ， 对 不 支持 
T/TCP 的 服务 器 ， 它 从 来 不 会 更 新 在 其 单机 高 速 缓存 中 的 相关 表 项 ， 因 而 tao_ccsent 值 总 
是 0( 未 定义 )。 

在 下 面 的 例子 (图 3-11) 中 ， 服 务 器 主机 运行 Solaris 2.4， 这 也 是 一 个 基于 SVR4 的 系统 (与 图 
3-10 中 的 服务 器 一 样 )， 但 二 者 的 TCP/IP 协 议 栈 实现 却 完全 不 同 。 

第 1~3 行 与 图 3-10 中 的 相同 : 带 有 SYN、EFIN、PSH 标 志和 300 字 节 数 据 的 报 文 段 ， 接 着 是 服 
务 器 的 SYN/ACK 报 文 段 ， 然 后 是 客户 的 ACK 报 文 段 。 这 是 一 次 正常 的 三 次 握手 过 程 。 同 样 ， 由 
于 不 知道 该 服务 器 的 CC 值 ， 客 户 端 TCP 发 出 的 是 一 个 带 有 CCnew 选 项 的 报 文 段 。 | 

Solaris 主 机 发 出 的 每 个 报 文 段 中 携带 的 “不 分 段 ” 标 志 (DF)， 用 于 路 径 最 大 传输 

单元 发 现 (RFC 1191 [Mogul and Deering 1990]), 
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0 bsdi.1033 > sun. : SFP 2693814107:2693814407(300) 
d win 8712 <mss 1460,ccnew 12> 


-002808 ; sun.8888 » bsdi. : S 3179040768:3179040768 (0) 
ack 2693814108 win 8760 
«mss 1460» (DF) 


.003679 z bsdi.1033 > sun. : F 301:301(0) 
ack 1 win 8760 


.287379 : bsdi.1033 » sun. : FP 1:301(300) 
ack 1 win 8760 


289048 , sun.8888 » bsdi. 


ack 302 win 8760 (DF) 


.291323 : sun.8888 » bsdi. : P 1:401(400) 
ack 302 win 8760 (DF) 


.292101 s bsdi.1033 > sun. , 

ack 401 win 8360 
.292367 T sun.8888 » bsdi. : F 401:401(0) 

ack 302 win 8760 (DF) 
.293151 R bsdi.1033 » sun. " 

ack 402 win 8360 





图 3-11 T/TCP 客 户 向 Solaris 2.4 上 的 TCP 服 务 器 发 送 事 务 请 求 


不 幸 的 是 ， 我 们 在 Solaris 的 TCP/IP 实 现 中 遇 到 了 一 个 bug。 因 为 这 个 bug， 服务器 端 TCP 
把 第 1 行 中 的 数据 部 分 扔 掉 了 (第 2 个 报 文 段 中 没有 对 该 数据 做 确认 )， 造 成 客户 端的 TCP 超 时 ， 
并 在 第 4 行 重 传 了 数据 ， 同 时 也 重 传 了 FIN。 接 着 ， 服 务 器 端 确认 了 客户 端 发 来 的 数据 和 
FIN( 第 5 行 )， 然 后 服务 器 端 在 第 6 行 发 出 应 答 。 客 户 端 在 第 7 行 对 应 答 给 出 确认 ， 紧 接着 是 服 
务 器 发 出 FIN 报 文 段 (第 8 行 )， 最 后 是 客户 端的 确认 (第 9 行 )。 
RFC 793 [Postel 1981b] 的 第 30 页 中 指出 :“ 尽 管 这 些 例子 并 不 证 明 采 用 附带 数据 
的 报 文 段 也 能 实现 连接 同步 ， 但 这 样 处 理 也 完全 是 合法 的 ， 接 收 葛 的 TCP 只 有 在 搞 清 
楚 了 数据 是 正确 的 以 后 才能 将 数据 交付 给 用 户 ( 即 ， 接 收 痛 对 数据 进行 缓存 ， 等 到 连 
接 状 态 进 入 ESTABLISHED 以 后 才能 交付 给 用 户 )。” 该 RFC 的 第 66 页 还 说 ， 在 
LISTEN 状 态 处 理 接收 到 的 SYN 时 ,“ 任 何其 他 控制 信息 和 正文 数据 都 要 先 放 入 队列 
待 以 后 处 理 ”。 
有 一 个 评论 者 声称 ， 把 上 述 现象 叫 作 “bug” 是 不 对 的 ， 因 为 RFC 中 并 没有 强制 
要 求 服务 器 在 处 理 SYN 的 同时 接受 其 中 附带 的 数据 。 上 声明 中 还 说 ，Solaris 的 实现 是 
正确 的 ， 因 为 还 没有 向 客户 端 通告 接收 窗口 ， 这 时 服务 器 完全 可 以 丢弃 已 到 达 的 数 
据 , 因为 这 些 数据 都 落 在 窗口 之 外 。 不 管 你 如 何 评价 这 个 特点 (作者 仍然 称 它 们 为 bug， 
SUN 公 司 也 已 经 为 这 个 问题 分 配 了 一 个 Bug ID 1222490， 因 此 也 将 会 在 今后 的 版 本 
中 进行 修正 )， 处 理 这 样 的 情况 还 要 符合 健壮 性 原则 ， 该 原则 在 RFC 791 [Postel 
1981a] 中 首次 提出 :“ 你 有 自由 去 决定 接受 什么 ， 但 你 发 送 什 么 却 必 须 遵守 规定 。” 


3.8 ”小结 


我 们 可 以 对 本 章 中 的 例子 做 下 面 这 样 的 总 结 : 
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1) 如 果 客 户 端 丢 失 了 服务 器 的 状态 信息 (例如 ， 客 户 端 重新 启动 )， 那 么 客户 端 在 主动 打开 
时 将 发 出 CCnew 选 项 ， 从 而 强迫 执行 三 次 担 手 过 程 。 
2) 如 果 服 务 器 丢失 了 客户 端的 状态 信息 ， 或 者 服务 器 收 到 的 SYN 报 文 段 中 的 CC 值 小 于 期 
望 的 值 ， 那 么 服务 器 返回 给 客户 的 响应 将 只 是 一 个 SYN/ACK 报 文 段 ， 从 而 强迫 执行 三 
次 握手 过 程 。 在 这 种 情况 下 ， 直 到 三 次 握手 过 程 完 全 结束 以 后 ， 服 务 器 的 TCP 才 会 把 
客户 在 SYN 报 文 段 中 附带 的 数据 交 给 上 层 的 服务 器 进程 。 
3) 如 果 服 务 器 想 在 连接 中 使 用 T/TCP 协 议 ， 那 么 它 总 是 用 CCecho 选 项 对 客户 的 CC 或 
CCnew 选 项 做 出 应 答 。 
4) 如 果 客 户 端 和 服务 器 端 彼此 都 掌 担 对 方 的 状态 信息 ， 那 么 整个 事务 过 程 所 收发 的 报 文 
段 个 数 将 达到 最 少 3 个 (假设 请 求 和 响应 的 长 度 都 小 于 或 等 于 报 文 段 最 大 长 度 )。 此 时 收 
发 的 分 组 数 最 少 ， 时 延 也 最 小 ， 为 RTT + SPT。 
以 上 这 些 例子 同时 也 说 明了 T/TCP 协 议 中 多 个 状态 的 变迁 是 如 何 发 生 的 ， 以 及 如 何 使 用 那 
些 新 扩充 (加 星 ) 的 状态 。 
如 果 客 户 端 向 一 个 不 支持 T/TCP 协 议 的 主机 发 送 带 有 SYN、 数 据 和 FIN 的 报 文 段 ， 那 么 采 
用 伯克利 网 络 代码 的 系统 (包括 SVR4， 但 不 包括 Solaris) 能 够 正确 地 将 数据 存储 在 队列 中 ， 直 
至 三 次 握手 过 程 完成 。 然 而 ， 其 他 的 一 些 网 络 代码 也 有 可 能 错误 地 把 SYN 报 文 段 中 的 数据 扎 
掉 ， 造 成 客户 端 超时 ， 并 重 传 数据 。 


第 4 章 T/TCP 协 议 ( 续 ) 


4.1 概述 


本 章 继续 讨论 T/TCP 协 议 。 我 们 首先 讨论 TITCP 客 户 程序 如 何 根 据 连 接 持 续 时 间 是 否 会 大 
于 报 文 段 最 大 生存 时 间 (MSL) 来 分 配 端 口号 ， 以 及 这 个 分 配 结果 对 TCP 的 TIME_WAIT 状 态 有 
什么 影响 。 接 下 来 我 们 研究 TCP 为 什么 要 定义 TIME_WAIT 状 态 ， 因 为 人 们 对 TCP 的 这 一 特点 
普遍 缺乏 理解 。T/TCP 协 议 的 重要 优点 之 一 就 是 在 连接 持续 时 间 小 于 报 文 段 最 大 生存 时 间 
MSL 时 ， 使 协议 的 TTME_WAIT 状 态 由 240 秒 缩短 至 大 约 12 秒 。 我 们 将 讨论 T/TCP 协 议 是 如 何 
实现 这 一 点 的 ， 以 及 这 样 做 的 正确 性 。 

本 章 最 后 我 们 将 讨论 T/TCP 协 议 的 TAO， 即 TCP 加 速 打 开 。 它 使 TTTCP 的 客户 一 服务 器 事 
务 能 够 跳 过 三 次 握手 过 程 ， 从 而 节省 了 一 次 往返 时 间 ， 这 也 正 是 T/TCP 协 议 给 我 们 带 来 的 最 
大 好 处 。 


4.2 客户 的 端口 号 和 TIME_WAIT 状 态 


我 们 编写 TCP 客 户 程序 的 时 候 通常 不 关心 如 何 选择 端口 号 。 大 部 分 TCP 客 户 程序 (如 
Telnet、FTP 以 及 WWW 等 ) 都 是 使 用 临时 端口 ， 让 主机 的 TCP 模 块 选择 一 个 当前 未 使 用 的 端 
口 。 从 伯克利 演变 来 的 系统 往往 选择 1024~5000 之 间 的 临时 端口 ( 见 图 14-14)， 而 Solaris 则 在 
32768~65535 之 间 选 择 。 然 而 ，T/TCP 协 议 根据 事务 速率 和 持续 时 间 ， 对 端口 号 的 选择 有 额 
外 的 要 求 。 


常规 的 TCP 主 机 和 常规 的 TCP 客 户 程序 
图 4-1 描 述 的 是 一 个 TCP 客 户 程序 (例如 图 1-5 所 示 的 程序 ) 与 同一 个 服务 器 之 间 执 行 的 三 次 
事务 , 每 次 事务 的 持续 时 间 为 1 秒 ， 前 后 事务 之 间 的 间隔 也 为 1 秒 。 三 次 连接 分 别 开 始 于 第 0 秒 、 


第 2 秒 和 第 4 秒 ， 而 分 别 终止 于 第 1 秒 、 第 3 秒 和 第 5 秒 。x 轴 表示 时 间 ， 单 位 为 秒 ， 三 次 连接 分 
别 用 粗 线段 表示 。 


0 1 2 3 4 5 241 242 243 244 245 
E — —À—— — al 
E... A 
— TMEWAT 0000. 


图 4-1 TCP 客 户 ， 不 同 的 事务 选用 不 同 的 本 地 端口 


每 次 事务 各 建立 一 条 TCP 连 接 。 我 们 假定 客户 程序 在 创建 插口 时 并 不 显 式 地 将 其 绑 定 到 
某 个 端口 ， 而 是 让 系统 的 TCP 模 块 来 选择 临时 端口 。 我 们 还 假定 客户 端 T7CP 模 块 的 MSL 为 120 
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秒 。 第 1 条 连接 要 保持 在 TIME_WAIT 状 态 ， 直 至 第 241 秒 ; 第 2 条 和 第 3 条 连接 则 分 别 从 第 3 秒 
和 第 5 秒 开始 保持 TIME_WAIT 状 态 ， 直 至 第 243 秒 和 第 245 秒 。 

在 图 中 ，CB 表 示 “ 控 制 块 "， 实 际 上 表示 连接 使 用 期 间 和 处 于 TIME_WAIT 状 态 期 间 TCP 
维持 的 几 个 控制 块 的 组 合 ， 包 括 : Internet 协 议 控制 块 (PCB)、TCP 控 制 块 和 首部 模板 。 在 第 2 
章 一 开始 时 我 们 就 说 过 ， 在 Net/3 实 现 中 ， 这 3 个 控制 块 的 大 小 总 和 为 264 字 节 。 除 了 内 存 要 求 
以 外 ，TCP 还 需要 占用 CPU 时 间 来 周期 性 地 处 理 这 些 控制 块 (例如 在 卷 2 的 25.4 节 和 25.5 节 中 ， 
协议 每 200 ms 和 500 ms 就 要 对 所 有 TCP 控 制 块 处 理 一 遍 )。 

Net/3 中 为 每 个 连接 保存 一 份 TCP 和 IP 首 部 作为 “首部 模板 ”( 卷 2 的 26.8 节 )。 该 

模板 中 包含 了 给 定 连接 中 用 到 的 所 有 字段 ， 这 些 字 段 在 该 连接 中 不 会 有 变化 。 这 样 

就 节省 了 每 次 发 送 报 文 段 的 处 理 时 间 ， 因 为 程序 代码 只 要 把 首部 模板 中 的 内 容 复 制 

到 正在 构造 的 输出 分 组 中 即 可 ， 而 不 需要 分 别 填写 每 个 字段 。 

常规 的 TCP 是 无 法 跳 过 三 次 握手 过 程 的 。 客 户 程 序 不 能 在 相继 的 3 条 连接 中 使 用 同一 个 本 
地 端口 ， 即 使 设置 了 SO_REUSEADDR 插 口 选 项 也 是 如 此 ( 卷 2 第 592 页 给 出 了 一 个 示例 程序 )。 


T/TCP 主机 ， 每 次 事务 用 不 同 的 客户 端口 


图 4-2 给 出 的 是 与 图 4-1 一 样 的 三 次 事务 序列 ， 但 这 里 我 们 假定 两 端的 主机 都 支持 T/TCP 协 
议 。 我 们 的 客户 程序 与 图 4-1 中 的 也 是 同一 个 。 这 有 很 重要 的 区 别 : 客户 和 服务 器 应 用 程序 不 
需要 知道 是 TCP 还 是 TITCP， 我 们 只 要 求 两 端的 主机 都 支持 T/TCP 协 议 ( 即 支持 CC 选项 )。 





NE TIME WAU, asai 
"n TME WAI sisse 


图 4-2 当 客户 和 服务 器 端 都 支持 TATCP 协 议 时 的 TCP 客 户 程序 


图 4-2 与 图 4-1 的 不 同 之 处 在 于 ， 连 接 处 于 TIME_WAIT 状 态 的 时 间 被 截断 了 ， 因 为 两 端的 
主机 都 支持 CC 选项 。 我 们 这 里 假定 重 传 超时 是 1.5 秒 (在 局 域 网 上 运行 的 Net/3 中 ， 这 是 典型 值 ， 
见 [Brakmo and Peterson 1994])，T/TCP 的 TIME_WAIT 是 8 倍 ， 这 样 就 将 TIME_WAIT 的 保持 时 
间 从 240 秒 缩短 到 了 12 秒 。 

当 两 端的 主机 都 支持 CC 选项 并 且 连 接 持续 时 间 小 于 报 文 段 最 大 生存 时 间 (120 秒 ) 时 ， 
T/TCP 人 允许 TIME_WAIT 状 态 的 保持 被 截断 。 这 是 因为 CC 选项 提供 了 另外 一 种 保护 机 制 ， 可 以 
防止 过 时 的 重复 报 文 段 被 投递 给 另 一 个 新 的 连接 ， 这 一 点 将 在 4.4 节 中 讨论 。 


T/TCP 主 机 ， 每 次 事务 用 同一 个 客户 端口 


图 4-3 给 出 了 与 图 4-2 相 同 的 三 次 事务 的 序列 ， 但 不 同 的 是 ， 我 们 在 这 里 假定 每 次 事务 中 客 
户 端 都 重复 使 用 同一 个 端口 。 为 了 做 到 这 一 点 ， 客 户 程序 必须 为 插口 设置 SO_REUSERDDR 选 
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项 ， 并 调用 binad 函 数 将 该 插口 绑 定 到 某 一 个 特定 的 本 地 端口 ， 然 后 再 调用 connect 函数 (对 
常规 的 TCP 客 户 程序 ) 或 sendto 函 数 ( 对 T/TCP 客 户 程序 )。 与 图 4-2 中 一 样 ， 这 里 也 假定 两 端的 
主机 都 支持 T/TCP 协 议 。 


mH BERN. 


TIME WAIT 
TIME WAIT 


图 4-3 TCP 客 户 程序 重用 同一 个 端口 : 客户 和 服务 器 主机 同时 支持 TATCP 协 议 


在 第 2 秒 和 第 4 秒 创建 连接 时 ，TCP 发 现 了 具有 相同 插口 对 的 控制 块 ， 并且 正 处 于 
TIME_WAIT 状 态 。 但 是 由 于 前 一 条 连接 替身 使 用 了 CC 选项 ， 尽 管 连 接 的 持续 时 间 小 于 报 文 
段 最 大 生存 时 间 ，TIME_WAIT 状 态 的 持续 时 间 还 是 被 截断 了 ， 并 且 ， 当 前 的 连接 控制 块 将 被 
删除 ， 系 统 将 为 新 的 连接 分 配 一 个 控制 块 (新 分 配 的 连接 控制 块 可 能 就 是 刚刚 被 删除 的 旧 连 接 
控制 块 : 但 那 是 实现 的 细节 问题 。 重 要 的 是 当前 连接 控制 块 的 总 数 没 有 增加 )。 当 第 3 条 连接 
在 第 5 秒 被 关闭 后 ，TIME_WAIT 状 态 的 持续 时 间 也 只 有 12 秒 ， 与 图 4-2 所 示 的 一 样 。 
总 之 ， 本 市 说 明了 事务 过 程 中 的 客户 程序 有 两 种 可 能 的 优化 方式 : 
1) 不 需要 改动 任何 程序 源 代码 ， 只 要 客户 和 服务 器 端 都 支持 T/TCP 协 议 ， 就 可 将 
TIME_WAIT 的 持续 时 间 缩 短 到 连接 中 重 传 超时 的 8 倍 ， 而 不 是 原来 的 240 秒 。 

2) 只 修改 客户 程序 ， 使 其 重用 同一 个 端口 号 ， 这 时 不 但 TIME_WAIT 状 态 的 持续 时 间 可 以 
像 前 一 种 情况 那样 截断 到 连接 中 重 传 超时 的 8 倍 ， 而 且 ， 如 果 同 一 连接 的 另 一 个 替身 被 
创建 ，TIME_WAIT 状 态 就 会 更 快 地 终止 。 


4.3 设置 TIME_WAIT 状 态 的 目的 


TIME_WAIT 状 态 是 TCP 中 最 容易 被 误解 的 特性 之 一 。 这 很 可 能 是 因为 最 初 的 规约 RFC 
793 中 只 对 该 状态 做 了 扼要 的 解释 ， 尽 管 后 来 的 RFC (如 RFC 1185), ， 对 TIME_WAIT 状 态 做 了 
详细 说 明 。 设 置 TIME_WAIT 状 态 的 原因 主要 有 两 个 : 

1) 它 实现 了 全 双 工 的 连接 关闭 。 

2) 它 使 过 时 的 重复 报 文 段 作废 。 

下 面 我 们 对 这 两 个 原因 做 进一步 的 讨论 。 


TCP 全 双 工 关闭 


图 4-4 给 出 了 一 般 情 况 下 连接 关闭 时 的 报 文 段 交换 过 程 。 图 中 还 给 出 了 连接 状态 的 变迁 和 
在 服务 器 端 测 得 的 RTT 值 。 

图 中 左 侧 为 客户 端 ， 右 侧 为 服务 器 端 。 要 注意 ， 其 中 的 任何 一 端 都 可 以 主动 关闭 连接 ， 
但 一 般 都 是 客户 端 执行 主动 关闭 。 

下 面 我 们 来 看 看 最 后 一 个 报 文 段 (最 后 一 个 ACK) 丢 失 时 会 发 生 什 么 现象 。 这 个 现象 就 显 
示 在 图 4-5 中 。 
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客户 服务 器 


主动 关闭 FIN. WAIT 1 FIN M 


ak Me CLOSE WAIT 被 动 关闭 
FIN. WAIT 2 


- FINN LAST_ACK 
TIME_WAIT 
ack N+ 1 RTT 
CLOSED 


图 4-4 通常 情况 下 连接 关闭 时 的 报 文 段 交 
服务 器 








主动 关闭 FIN_WAIT_1 
CLOSE_WAIT 被 动 关闭 


FIN_WAIT 2 LAST_ACK 






TIME WAIT 
-~ ackN+17 RTO 


重 传 FINN 


TIME_WAIT 
重启 动 





CLOSED 
图 4-5 最 后 一 个 报 文 段 丢失 时 的 TCP 连 接 关 闭 


由 于 没有 收 到 客户 的 最 后 一 个 确认 ， 服 务 器 会 超时 ， 并 重 传 最 后 一 个 FIN 报 文 段 。 我 们 特 
意 把 服务 器 的 重 传 超时 (RTO) 给 得 比 图 4-4 中 的 RTT 大 ， 这 是 因为 RTO 的 取 值 是 估计 的 RTT 值 加 
上 若干 倍 的 RTT 方 差 ( 卷 2 的 第 25 章 详细 论述 了 如 何 测量 RTT 值 以 及 如 何 计算 RTO)。 处 理 最 后 
一 个 FIN 报 文 段 丢 失 的 方法 也 是 一 样 : 服务 器 在 超时 后 继续 重 传 FIN。 

这 个 例子 说 明了 为 什么 TIME_WAIT 状 态 要 出 现在 执行 主动 关闭 的 一 端 该 端 发 出 最 后 一 
个 ACK 报 文 段 ， 而 如 果 这 个 ACK 和 技 失 或 最 后 一 个 FIN 丢 失 了 ， 那 么 另 一 端 将 超时 并 重 传 最 后 
的 FIN 报 文 段 。 因 此 ， 在 主动 关闭 的 一 端 保留 连接 的 状态 信息 ， 这 样 它 才 能 在 需要 的 时 候 重 传 
最 后 的 确认 报 文 段 ， 否 则 ， 它 收 到 最 后 的 FIN 报 文 段 后 就 无 法 重 传 最 后 一 个 ACK ， 而 只 能 发 
出 RST 报 文 段 ， 从 而 造成 虚假 的 错误 信息 。 

图 4-5 还 说 明了 另 一 个 问题 ， 即 如 果 重 传 的 FIN 报 文 段 在 客户 端 主机 仍 处 于 TIME_WAIT 状 
态 的 时 候 到 达 ， 那 么 不 仅仅 最 后 一 个 ACK 会 重 传 ， 而 且 TIME_WAIT 状 态 也 重新 开始 。 这 时 ， 
TIME_WAIT 状 态 的 持续 时 间 定 时 器 重 置 为 2 倍 的 报 文 段 最 大 生存 时 间 ， 即 2MSL。 

问题 是 ， 执 行 了 主动 关闭 的 一 端 ， 为 了 处 理 图 4-5 所 示 的 情况 ， 需 要 在 TIME_WAIT 状 态 
保持 多 长 的 时 间 ? 这 取决 于 对 端的 RTO 值 ， 而 RTO 又 取决 于 该 连接 的 RTT 值 。RFC 1185 中 指 
出 RTT 的 值 超过 1 分 钟 不 太 可 能 。 但 实际 上 RTO 却 很 有 可 能 长 达 1 分 钟 : 在 广域网 发 生 拥 塞 时 
就 会 有 这 种 情形 。 这 是 因为 拥塞 会 导致 多 次 重 传 的 报 文 段 仍然 丢失 ， 从 而 使 TCP 的 指数 退 避 
算法 生效 ，RTO 的 值 越 来 越 大 。 
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过 时 的 重复 报 文 段 失效 


设置 TIME_WAIT 状 态 的 第 二 个 原因 是 让 过 时 的 重复 报 文 段 失效 。TCP 协 议 的 运行 基于 一 
个 基本 的 假设 : 互联 网 上 的 每 一 个 IP 数 据 报 都 有 一 个 有 限 的 生存 期 限 ， 这 个 期 限 值 是 由 IP 首 
部 的 TTL( 生 存 时 间 ) 字 段 决 定 的 。 每 一 台 路 由 器 在 转发 IP 数 据 报时 都 要 将 其 TTL 值 减 1， 但 如 
果 该 IP 数 据 报 在 路 由 器 中 等 待 的 时 间 超 过 1 秒 ， 那 就 要 把 TTL 的 值 减 去 等 待 的 时 间 。 实 际 上 ， 
IP 数 据 报 在 路 由 器 中 的 等 待 时 间 很 少 超过 1 秒 ， 因 而 每 个 路 由 器 通常 都 是 把 TTL 的 值 减 1(RFC 
1812 的 5.3.1 节 [Baker 1995])。 由 于 TTL 字 段 的 长 度 是 8 比特 ， 因 此 每 个 IP 数 据 报 所 能 经 历 的 转 
发 次 数 至 多 为 255。 

RFC 793 把 该 限制 定义 为 报 文 段 最 大 生存 时 间 (MSL)， 并 规定 其 值 为 2 分 钟 。 该 RFC 同 时 
指出 ， 将 MSL 定 义 为 2 分 钟 是 一 个 工程 上 的 选择 ， 其 值 可 以 根据 经 验 进 行 修改 。 最 后 ，RFC 
793 规 定 TIME_WAIT 状 态 的 持续 时 间 为 MSL 的 2 倍 。 

图 4-6 给 出 的 是 一 个 连接 关闭 后 在 TIME_WAIT 状 态 保持 了 2MSL 后 发 起 建立 新 的 连接 
BE. 

客户 服务 器 


D FIN M 


MSL: 过 时 重复 报 文 
段 在 这 段 时 间 内 到 期 


2MSL 








SYN 


图 4-6 前 一 个 连接 替身 关闭 2MSL 后 发 起 该 连接 的 一 个 新 替身 
由 于 该 连接 的 新 替身 必须 在 前 一 个 连接 替身 关闭 2MSL 之 后 才能 再 次 发 起 ， 而 且 由 于 前 一 
个 连接 替身 的 过 时 重复 报 文 段 在 TIME_WAIT 状 态 的 第 1 个 MSL 里 就 已 经 消失 ， 因 此 我 们 可 以 
保证 前 一 次 连接 的 过 时 重复 报 文 段 不 会 在 新 的 连接 中 出 现 ， 也 就 不 可 能 被 误 认为 是 第 二 次 连 
接 的 报 文 段 。 
TIME_WAIT 状 态 的 自 结束 


RFC 793 中 规定 ， 处 于 TIME_WAIT 状 态 的 连接 在 收 到 RST 后 变迁 到 CLOSED 状 态 ， 这 称 
为 TIME_WAIT 状 态 的 自 结束 。RFC 1337 [Braden 1992a] 中 则 建议 不 要 用 RST 过 早 地 结束 
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TIME_WAIT 状 态 。 
4.4 _ TIME_WAIT 状 态 的 截断 


我 们 从 图 4-2 和 图 4-3 中 已 经 看 到 ，T/TCP 协 议 可 以 截断 TIME_WAIT 状 态 的 保持 时 间 。 采 
用 T/TCP 协 议 后 ， 保 持 时 间 由 2MSL 缩 短 为 RTO( 重 传 超时 ) 的 8 倍 。 在 4.3 节 ， 我 们 也 看 到 了 设 
置 TIME_WAIT 状 态 的 原因 有 两 个 。 那 么 ， 截 断 了 该 状态 的 保持 时 间 后 ， 对 应 于 每 一 个 原因 都 
分 别 产生 了 什么 样 的 后 果 ? 


TCP 全 双 工 关闭 


设置 TIME_WAIT 状 态 的 第 一 个 原因 是 为 最 后 一 个 FIN 的 重 传 保 持 所 需 的 状态 信息 。 如 图 
4-5 所 示 ， 花 在 TIME_WAIT 状 态 的 时 间 实际 上 应 该 根据 RTO 来 定 ， 而 不 是 根据 MSL。T/ATCP 中 
选用 乘 数 8 是 为 了 保证 对 方 有 足够 的 时 间 超时 ， 并 重 传 最 后 一 个 报 文 段 。 这 样 就 产生 了 如 图 4- 
2 所 示 的 情形 : 双方 都 在 等 待 截断 的 TIME_WAIT 保 持 期 (图 中 为 12 秒 ) 过 去 。 

但 是 让 我 们 来 看 看 图 4-3 中 发 生 的 情况 。 那 里 因 新 的 客户 程序 又 使 用 了 同一 个 插口 对 ， 从 
而 TIME_WAIT 状 态 在 8 倍 RTO 的 保持 时 间 到 期 之 前 就 被 截断 了 。 图 4-7 给 出 了 一 个 例子 。 


客户 服务 器 


给 客户 的 数据 和 EOF 标 志 a 
开始 TIME_WAIT 状 态 





新 的 主动 打开 — 
截断 TIME_WAIT 状 态 xA 
一 > 隐 含 着 对 前 一 次 连接 的 确认 
关闭 旧 的 连接 
启动 新 的 连接 
将 数据 交 给 服务 器 进程 


图 4-7 最 后 一 个 ACK 丢 失 时 TIME_WAIT 状 态 被 截断 的 情形 


图 中 ， 最 后 一 个 ACK 丢 失 了 ， 但 是 客户 在 收 到 服务 器 重 传 的 最 后 一 个 报 文 段 之 前 又 再 次 
发 起 了 同一 个 连接 的 另 一 个 替身 。 当 服务 器 收 到 新 的 SYN 报 文 段 时 ， 由 于 TAO 测 试 成 功 (因为 
8 大 于 6)， 这 就 隐 含 着 确认 了 服务 器 的 竺 确认 报 文 段 (图 中 第 2 个 报 文 段 )。 老 的 连接 于 是 关闭 ， 
新 的 连接 开始 建立 。 由 于 TAO 测试 成 功 ， 新 SYN 报 文 段 中 的 数据 被 交付 给 服务 器 进程 。 

有 意思 的 是 ， 由 于 T/TCP 协 议 把 TIME_WAIT 状 态 的 保持 时 间 定 义 为 执行 主动 关 

闭 一 痛 所 测 得 的 RTO 的 函数 ， 因 而 就 有 了 一 个 隐 含 的 假定 : 两 详 测 得 的 RTO 值 相近 ， 

并 且 在 一 定 的 范围 之 内 [Olah 1995]。 如 果 执 行 主 动 关闭 的 一 端 在 另 一 端 重 传 最 后 的 

FIN 之 前 就 结束 了 TIME_WAIT 状 态 ， 那 么 对 重 传 FIN 报 文 段 的 响应 将 是 RST 而 不 是 重 
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tk ia Pr FAFA ACK, 

当 RTT 的 值 较 小 ， 最 小 的 3 个 T/TCP 交 换 报 文 段 中 的 第 3 个 报 文 段 丢失 ， 以 及 客户 
端 和 服务 器 端 具 有 不 同 的 软件 时 钟 速 率 和 不 同 的 RTO 最 小 值 时 ， 就 会 发 生 上 述 情 况 
(14.7 节 给 出 了 客户 常用 的 一 些 RTO 值 )。 无 论 如 何 ， 当 服务 器 无 法 测量 RTT 的 时 候 (由 
于 第 3 个 报 文 段 丢失 )， 客 户 可 以 测 出 较 小 的 RTT 值 。 例 如 ， 假设 客户 测 得 的 RTT 值 为 
10 ms，RTO 的 最 小 值 为 100 ms， 这 时 客户 在 收 到 服务 器 响应 800 ms 以 后 就 蕉 断 
TIME_WAIT 状 态 。 但 如 果 服 务 器 是 从 伯克利 演变 而 来 的 版 本 ， 那 么 其 缺 省 的 RTO 为 
6 秒 ( 如 图 14-13 所 示 )。 当 服务 器 在 大 约 6 秒 后 重 传 其 SYN/ACK/ 数 据 /FIN 时 ， 客 户 闹 将 
发 出 一 个 RST 作 为 响应 ， 给 服务 器 应 用 程序 造成 一 个 虚假 的 错误 。 


过 时 的 重复 报 文 段 失效 


TIME_WAIT 状 态 的 截断 是 可 行 的 ， 因 为 CC 选项 能 够 防止 过 时 的 重复 报 文 段 错误 地 传递 给 后 
续 连接 。 但 截断 的 前 提 是 连接 的 持续 时 间 小 于 报 文 段 最 大 生存 时 间 (MSL)。 考 虑 图 4-8 所 示 的 情 
况 。 我 们 让 CC 生成 器 (tcp_ccgen) 以 最 大 可 能 速率 递增 : 每 两 个 报 文 段 最 大 生存 时 间 (2MSL) 就 
增长 22?-1。 这 使 得 事务 速率 达到 最 大 ， 为 4 294 967 295 除 以 240， 大 约 为 每 秒 18 000 000 次 事务 。 

假设 tcp_ccgen 的 值 在 时 刻 0 时 为 ]， 并 以 上 述 最 大 速率 递增 ,那么 在 2MSL.、 

4MSL 等 时 记 ，tcp_ccgen 的 值 又 重新 回 到 1。 而 且 ， 由 于 tcp_ccgen 的 值 永 远 不 

取 0， 在 2MSL 的 时 间 里 只 有 2” 一 1 个 值 而 不 是 2” 个 值 ; 因此 ,我 们 在 图 中 给 出 MSL 

时 ，2 147 483 648 这 个 值 实际 上 是 在 MSL 时 刻 之 前 很 短 的 时 间 里 出 现 。 


我 们 假设 连接 始 于 时 刻 0，CC 值 为 1， 连 接 持续 时 间 为 100 秒 。TIME_WAIT 状 态 从 第 100 
秒 开 始 ， 一 直 保 持 到 第 112 秒 ， 或 者 在 主机 发 起 下 一 次 连接 时 提前 结束 (这 里 假定 RTO 为 1.5 秒 ， 
因此 TIME_WAIT 状 态 的 保持 时 间 为 12 秒 )。 由 于 连接 的 持续 时 间 (100 秒 ) 小 于 报 文 段 最 大 生存 
时 间 (MSL=120 秒 ), 因而 可 以 保证 该 次 连接 的 所 有 过 时 重复 报 文 段 在 第 220 秒 以 后 一 定 会 消失 。 
我 们 还 假定 tcp_ccgen 计 数 器 是 以 最 大 可 能 速率 递增 的 。 也 就 是 说 ， 主 机 在 第 0~240 秒 的 时 
间 里 建立 超过 40 亿 条 TCP 连 接 。 


1-2 tcp. ccgen 时 间 0 
CC - 1 的 连接 


100 
112 

231 = 2 147 483 648 = tcp ccgen (MSL) 120 十 
MSL: 所 有 CC = 1 的 过 时 重 
复 报 文 段 在 这 段 时 间 内 到 期 
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Y 
图 4-8 持续 时 间 小 于 MSL 的 连接 : TIME_WAIT 状 态 截断 是 可 行 的 
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因此 ， 只 要 连接 的 持续 时 间 小 于 报 文 段 最 大 生存 时 间 ， 将 TIME_WAIT 状 态 的 保持 时 间 截 
断 就 是 安全 的 ， 因 为 CC 选项 的 值 直到 所 有 的 过 时 重复 报 文 段 都 消失 以 后 才 会 重复 。 

要 明白 为 什么 只 有 当 连 接 的 持续 时 间 小 于 报 文 段 最 大 生存 时 间 时 才能 截断 TIME_WAIT 状 
态 的 保持 时 间 ， 那 得 考察 图 4-9 所 示 的 情形 。 

我 们 仍然 假设 tcp_ccgen 计 数 器 以 可 能 的 最 快速 率 递增 。 某 个 连接 开始 于 时 刻 0，CC 值 
为 2， 持 续 时 间 为 140 秒 。 由 于 持续 时 间 大 于 报 文 段 最 大 生存 时 间 ， 故 TIME_WAIT 状 态 不 能 被 
截断 ， 从 而 该 连接 的 播 口 对 只 有 等 到 第 380 秒 以 后 才能 被 重用 (从 技术 上 讲 ， 由 于 我 们 给 定 
tcp_ccgen 在 0 时 刻 的 值 为 1， 故 CC 值 为 2 的 连接 会 在 0 时 刻 稍 后 建立 ， 并 在 第 140 秒 稍 后 终止 。 
但 这 不 影响 我 们 的 讨论 )。 

在 第 240~260 秒 之 间 ，CC 值 2 可 以 重用 。 如 果 TIME_WAIT 状 态 被 截断 (比如 发 生 在 第 
140~152 秒 之 间 的 某 个 时 刻 )， 并 且 如 果 同 一 条 连接 的 另 一 次 实现 在 第 240~260 秒 之 间 重 新 建 
立 且 CC 值 为 2， 那 么 由 于 所 有 过 时 的 重复 报 文 段 只 有 在 第 260 秒 以 后 才 会 全 部 消失 ， 这 样 那 
些 属于 前 一 次 连接 的 过 时 重复 报 文 段 就 有 可 能 被 误 认 为 是 第 2 次 连接 的 新 报 文 段 。 在 第 
240~260 秒 这 段 时 间 ， 其 他 的 连接 ( 即 不 同 的 插口 对 ) 将 CC 的 值 取 为 2 并 没有 什么 问题 ， 但 是 
同一 个 插口 对 就 不 能 重复 使 用 这 个 CC 值 ， 因 为 此 时 网 络 中 可 能 还 有 属于 该 连接 的 过 时 重复 
报 文 段 。 
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图 4-9 持续 时 间 大 于 MSL 的 连接 : TIME_WAIT 状 态 无 法 被 截断 


从 应 用 程序 的 角度 而 言 ， 所 谓 TIME_WAIT 状 态 截断 就 意味 着 客户 程序 在 与 同一 个 服务 器 
进行 一 系列 事务 时 ， 必 须 选择 是 让 一 系列 连接 使 用 同一 个 本 地 端口 ， 还 是 让 每 次 事务 使 用 各 
自 不 同 的 本 地 端口 。 当 连接 的 持续 时 间 小 于 报 文 段 最 大 生存 时 间 时 (在 事务 中 这 是 典型 的 情况 )， 
重用 本 地 端口 可 以 市 约 TCP 资 源 ( 即 减少 了 对 控制 块 内 存 的 需求 ， 见 图 4-2 和 图 4-3)。 但 是 如 果 
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客户 程序 在 前 一 次 连接 的 持续 时 间 大 于 报 文 段 最 大 生存 时 间 的 情况 下 试图 重用 本 地 端口 ， 建 
立 连接 时 将 返回 EADDRINUSE 错 误 (图 12-2)。 

如 图 4-2 所 示 ， 无 论 应 用 程序 采用 哪 种 端口 使 用 策略 ， 如 果 两 端的 主机 都 支持 T/TCP 协 议 ， 
而 且 连 接 的 持续 时 间 小 于 报 文 段 最 大 生存 时 间 ， 那 么 TIME_WAIT 状 态 的 保持 时 间 总 是 可 以 从 
2 倍 MSL 截 断 到 8 倍 RTO。 这 样 就 节约 了 资源 ( 即 内 存 和 CPU 时 间 )。 这 对 支持 TATCP 协 议 的 两 台 
主机 之 间 的 任何 TCP 连 接 ( 如 FTP、SMTP、HTTP 以 及 其 他 )， 只 要 连接 持续 时 间 小 于 MSL 就 都 
适用 。 
4.5 利用 TAO 跳 过 三 次 握手 


T/TCP 协 议 的 主要 好 处 就 是 能 够 跳 过 三 次 握手 。 为 了 理解 何以 能 跳 过 三 次 握手 ， 我 们 需要 
先 了 解 三 次 握手 的 目的 。RFC 793 中 对 此 只 是 做 了 一 个 简单 的 说 明 :“ 引 入 三 次 担 手 的 主要 目 
的 是 避免 过 时 的 重复 连接 在 再 次 建立 连接 时 造成 混乱 。 为 此 ， 专 门 定义 了 一 个 特殊 的 控制 报 
文 reset 来 解决 这 个 问题 ”。 

在 三 次 担 和 手中， 每 一 端 都 是 先 发 出 SYN 报 文 段 ， 其 中 含有 各 自 的 起 始 序 列 号 ; 然后 每 一 
端 都 要 确认 对 方 的 SYN 报 文 段 。 这 样 就 可 以 排除 当 过 时 的 重复 报 文 段 到 达 某 一 端 时 可 能 带 来 
的 混淆 。 此 外 ， 常 规 的 TCP 不 会 在 进入 ESTABLISHED 状 态 之 前 就 把 在 SYN 报 文 段 中 一 起 传送 
过 来 的 数据 交付 给 上 层 的 用 户 进程 。 

T/TCP 协 议 必须 提供 一 种 方法 ， 使 收 到 SYN 报 文 段 的 一 方 能 够 不 经 过 三 次 握手 就 保证 这 个 
SYN 不 是 过 时 的 重复 报 文 段 ， 从 而 使 得 随 该 SYN 报 文 段 一 起 传送 过 来 的 数据 能 立刻 交付 给 上 
层 的 用 户 进 程 。 这 里 的 保护 手段 是 客户 发 出 的 SYN 报 文 段 中 附带 的 CC 选项 和 服务 器 缓存 的 最 
近 一 次 从 该 客户 收 到 的 合法 CC 值 。 

考虑 图 4-10 时 序 图 所 示 的 情况 。 与 图 4-8 中 一 样 ， 我 们 假设 tcp_ccgen 计 数 器 以 最 大 可 能 
速率 递增 : 每 2MSL 递 增 2 ”一 1。 


1 = tcp. ccgen 时 间 0 
100 = tcp. ccgen 


231 =2 147 483 648 = tcp ccgen (MSL) 120 十 — 所 有 CC = 1 的 SYN 到 期 
— 所 有 CC = 100 的 SYN 到 期 


232 -1=4294967 295 = tcp_ccgen 
1 =tcp_ccgen  (2MSL) 240 十 -——» 连接 :CC =1， 服 务 器 将 该 CC 存 人 缓存 


10 = Gep eegen C 连接 ，CC = 100， 服 务 器 将 该 CC 存 人 缓存 
图 4-10 SYN 中 较 高 的 CC 值 保证 该 SYN 不 是 过 时 复制 品 
在 0 时 刻 ，tcp_ccgen 的 值 为 1; 很 小 的 一 段 时 间 后 其 值 就 变 为 100。 由 于 IP 数 据 报 的 生 
存 其 有限， 我 们 可 以 确信 在 第 120 秒 的 时 候 (MSL 秒 以 后 )，CC 值 为 1 的 所 有 SYN 报 文 段 都 已 经 
过 期 而 在 网 络 中 消失 ;此 后 再 过 一 小 段 时 间 ， 所 有 CC 值 为 100 的 SYN 报 文 段 也 都 消失 了 。 
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于 是 在 第 240 秒 的 时 候 ， 又 建立 了 一 个 CC 值 为 1 的 新 连接 。 假 设 服务 器 对 该 报 文 段 的 TAO 
测试 成 功 ， 那 么 它 就 把 该 客户 的 最 新 CC 值 缓存 下 来 。 此 后 不 久 ， 该 服务 器 主机 又 收 到 同一 客 
户 的 另 一 个 连接 请 求 。 由 于 这 时 SYN 报 文 段 中 的 CC 值 (100) 比 服务 器 当前 保存 的 该 客户 最 近 一 
个 合法 CC 值 (1) 要 大 ， 而 且 以 前 CC 值 为 100 的 连接 中 的 所 有 SYN 都 已 经 超过 了 MSL 时 间 ， 因 而 
服务 器 可 以 断定 这 是 一 个 新 的 SYN。 

事实 上 ， 这 就 是 RFC 1644 中 所 述 的 TAO 测试 :“ 如 果 某 个 特定 客户 主机 的 第 一 个 SYN 报 文 
段 ( 即 只 含 SYN 位 而 不 含 ACK 位 的 报 文 段 ) 中 所 携带 的 CC 值 大 于 缓存 中 的 该 客户 CC 值 ，CC 值 
的 单调 递增 特性 可 以 确保 这 是 一 个 新 的 SYN 报 文 段 ， 可 以 立即 接收 下 来 。 正 是 CC 值 的 单调 
递增 特性 以 及 下 面 的 两 个 假设 确保 了 SYN 报 文 段 是 新 的 ， 使 得 TTCP 协 议 能 够 跳 过 三 次 握手 : 

1) 所 有 的 报 文 段 都 只 有 有 限 的 MSL 秒 的 生存 期 ; 

2) 上 cp_ccgen 计 数 器 在 2MSL 的 时 间 内 的 递增 量 不 超过 22 一 1。 


失 序 的 SYN 报 文 段 


图 4-11 给 出 了 两 台 T/TCP 主 机 和 一 个 失 序 到 达 的 SYN 报 文 段 。 这 个 SYN 并 不 是 一 个 过 时 的 
重复 报 文 段 ， 只 不 过 是 没有 按照 正确 的 顺序 到 达 服 务 器 而 已 。 


客户 进程 服务 器 进程 
LISTEN, 端口 12 
客户 端口 1600 1 | tao_cc[ 客 户 ]=1 
客户 端口 1601 2 ! SYN 
I zc 数据 , FIN 
e aO FIN) TAO 测试 成 功 ，tao_cc[ 客 户 ] = 5000 
| 传送 数据 给 服务 器 进程 


ack(FIN) 
Cc = 5000 


l 
| 
I 
1 





TAO 测试 失败 ， 数 据 进 队 列 , 3WHS, 


NE —— tao cc [客户 ] = 5000 
CC - 99, CCecho- 
ack(SYN) 
CC=15 将 队列 中 的 数据 传 给 服务 器 进程 
tao cc [客户 ] = 5000 


图 4-11 两 台 T/TCP 主 机 和 人 失 序 到 达 的 SYN 报 文 段 


服务 器 缓存 的 该 客户 的 CC 值 为 1 。 报 文 段 1 是 从 客户 端口 1600 发 出 的 ， 携 带 的 CO 值 为 15， 
但 它 在 网 络 上 延迟 了 一 段 时 间 。 报 文 段 2 是 从 客户 端口 1601 发 出 的 ， 携 带 的 CC 值 为 5000。 当 
报 文 段 2 到 达 服 务 器 时 ，TAO 测 试 成 功 (5000 大 于 1)， 于 是 对 该 客户 缓存 的 最 新 CC 值 改 为 5000， 
并 把 数据 交付 给 进程 。 报 文 段 3 和 报 文 段 4 完成 该 次 事务 。 


6 
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当 报 文 段 1 终于 到 达 服 务 器 时 ，TAO 测 试 失败 (15 小 于 5000)， 于 是 服务 器 给 出 的 响应 也 是 
一 个 SYN 报 文 段 ， 其 中 带 有 对 所 收 到 SYN 的 ACK， 强 迫 执行 三 次 握手 过 程 。 只 有 当 三 次 握手 
完成 后 才 会 把 数据 交付 给 服务 器 进程 。 报 文 段 6 结束 三 次 握手 过 程 ， 队 列 中 的 数据 于 是 被 交付 
给 服务 器 进程 (图 中 没有 给 出 该 事务 的 后 续 过 程 )。 但 是 ， 尽 管 三 次 握手 成 功 结束 ，CC 值 为 15 
的 报 文 段 也 并 不 是 一 个 过 时 的 重复 报 文 段 ( 它 只 是 到 达 的 顺序 不 对 )， 服 务 器 所 记录 的 该 客户 的 
CC 值 并 不 更 新 。 如 果 更 新 CC 会 使 其 值 由 5000 回 到 15， 可 能 会 使 服务 器 错误 地 收 下 来 自 该 客 
户 的 、CC 值 介 于 15~5000 之 间 的 过 时 重复 报 文 段 。 


翻转 了 符号 位 的 CC 值 


在 图 4-11 中 我 们 看 到 ， 当 TAO 测试 失败 后 ， 服 务 器 强迫 执行 三 次 握手; 即使 担 手 过 程 成 
功 结束 ， 服 务 器 所 记录 的 该 客户 CC 值 也 不 更 新 。 从 协议 的 角度 出 发 ， 这 样 做 是 正确 的 ， 但 却 
降低 了 效率 。 

服务 器 端 TAO 测 试 失败 是 很 可 能 发 生 的 ， 因 为 CC 值 是 客户 端 生成 的 。 对 客户 端 来 说 ， 这 
是 所 有 连接 的 全 局 变量 ， 对 服务 器 来 说 ， 则 是 “翻转 (wrap) 了 它们 的 符号 位 ”( 类 似 于 TCP 的 
序列 号 ，CC 值 也 是 无 符号 的 32 位 数 。 对 CC 值 进 行 比较 采用 模 运 算 ， 具体 算法 可 见 卷 2 第 
649~650 页 。 当 我 们 说 CC 值 a 的 符号 位 相对 于 值 >“ 翻 转 ” 了 时 ， 其 具体 含义 是 a 的 值 增加 后 不 
再 比 2 大 了 ， 反 倒是 比 z 小 了 )。 看 图 4-12。 


l1-2tcp ccgen 时 间 0- -—— 连接 ，CC = 1， 服 务 器 将 该 CC 存 入 缓存 


连接 ，CC = 2 147 483 648 


31 = = MSE) 120 
231 = 2 147 483 648 = tcp_ccgen ( ) a TAO 测 试 失败 ， 服 务 器 强迫 执行 三 次 提 手 


232 — 1 = 4 294 967 295 = tcp_ccgen 
1=tcp_ccgen  (2MSL) 240 


图 4-12 CC 的 值 翻转 其 符号 位 造成 TAO 测试 失败 


客户 在 0 时 刻 与 服务 器 建立 连接 :CC 值 为 1!。 服 务 器 了 TAO 测试 成 功 ， 并 把 该 CC 值 记录 为 该 
客户 当前 的 CC 值 。 接 着 该 客户 与 其 他 服务 器 建立 了 2 147 483 646 个 连接 。 在 第 120 秒 时 ， 它 
与 0 时 刻 建立 起 连接 的 服务 器 又 建立 一 个 连接 ， 但 此 时 的 CC 值 为 2 147 483 648。 服 务 器 收 到 
SYN 后 ，TAO 测 试 失 败 ( 按 模 运 算 ，2 147 483 648 比 1 小 ， 如 卷 2 的 图 24-26 所 示 )， 然 后 三 次 担 
手 过 程 验证 了 该 SYN 报 文 段 ， 但 是 服务 器 当前 记录 的 该 客户 的 CC 值 仍 然 是 1。 

这 就 意味 着 ， 从 此 开始 到 第 240 秒 的 这 一 段 时 间 里 ， 该 客户 向 该 服务 器 发 送 任何 一 个 SYN 
都 要 经 过 三 次 握手 过 程 。 这 里 假设 ticp_ccgen 计 数 器 持续 以 最 快 的 速率 递增 ,但 更 可 能 的 情 
况 是 该 计数 器 的 递增 速率 会 低 得 多 ， 意 味 着 计数 器 由 2 147 483 648 递 增 到 4 294 967 295 就 需 
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要 不 止 120 秒 了 ， 而 可 能 是 几 个 小 时 甚至 几 天 的 时 间 。 而 直到 该 计数 器 的 符号 位 再 次 翻转 以 前 ， 
该 客户 和 该 服务 器 之 间 的 所 有 T/TCP 连 接 都 要 执行 三 次 握手 。 

这 个 问题 的 解决 需要 连接 双方 的 共同 努力 。 首 先 ， 不 仅 服务 器 要 为 每 个 客户 记录 其 最 新 
的 CC 值 ， 而 且 客 户 也 要 记录 发 给 每 个 服务 器 的 最 新 CC 值 。 这 两 个 变量 即 为 图 2-5 中 的 tao_cc 
和 tao_ccsent。 

其 次 ， 当 客户 发 现 要 使 用 的 tcp_ccgen 值 小 于 它 最 近 发 送 给 服务 器 的 CC 值 时 ， 客 户 就 
发 出 CCnew 选 项 而 不 是 CC 选项 。 该 选项 强迫 两 台 主 机 再 次 同步 它们 各 自 记 录 的 CC 值 。 

服务 器 收 到 一 个 带 有 CCnew 选 项 的 SYN 报 文 段 后 ， 它 把 该 客户 的 kao_cc 标 记 为 0( 未 定 
义 )。 三 次 担 手 成 功 结束 后 ， 如 果 TAO 缓 存 中 该 客户 的 表 项 还 是 未 定义 ， 就 将 其 更 新 为 这 次 收 
到 的 CC 值 。 

由 此 可 见 ， 当 客户 端 没 有 记录 该 服务 器 的 CC 值 ( 比 如 客户 端 重启 ， 或 缓存 中 对 应 于 该 服务 
器 的 表 项 被 冲 掉 ) 时 ， 或 者 客户 端 检测 到 该 服务 器 的 CC 值 已 翻转 时 ， 该 客户 将 在 其 初始 SYN 报 
文 段 中 发 送 CCnew 选 项 而 不 是 CC 选项 。 


重复 的 SYN/ACK 报 文 段 


到 目前 为 止 ， 我 们 的 注意 力 一 直 和 集中 在 服务 器 如 何 确定 所 收 到 的 SYN 报 文 段 是 新 的 还 是 
过 时 和 重复 的 。 这 使 得 服务 器 可 以 绕 开 三 次 提 手 的 过 程 。 但 是 客户 端 又 如 何 确 定 所 收 到 的 服 
务 器 响应 (SYN/ACK 报 文 段 ) 不 是 过 时 和 重复 的 呢 ? 

在 常规 的 TCP 中 ， 客 户 端 发 送 的 SYN 报 文 段 中 不 带 数 据 ， 因 此 服务 器 要 确认 的 内 容 只 有 
一 个 字 节 : SYN。 此 外 ， 从 伯克利 演变 来 的 实现 又 在 建立 新 连接 时 将 初始 发 送 序 号 (ISS) 递 增 
64 000(TCP_ISSINCR 除 以 2) ( 见 卷 2 第 808 页 )， 这 样 客户 端 发 送 的 后 续 SYN 中 的 初始 发 送 序 
号 就 总 是 比 前 一 次 连接 的 要 大 。 因 而 过 时 的 重复 SYN/ACK 报 文 段 就 不 太 可 能 含有 客户 端 可 接 
受 的 确认 字段 。 

然而 在 TITCP 协 议 中 ， 客 户 端 的 SYN 报 文 段 中 通常 都 带 有 数据 ， 这 就 扩大 了 客户 端 从 服务 
器 收 到 的 可 接受 确认 的 范围 。RFC 1379 [Braden 1992b] 的 图 7 给 出 的 例子 中 ， 客 户 端 就 错误 地 接 
受 了 一 个 过 时 的 重复 SYN/ACK 报 文 段 。 然 而 ， 该 例子 出 现 这 个 问题 的 原因 在 于 前 后 两 个 相继 
连接 的 初始 发 送 序 号 只 差 100， 小 于 客户 端 在 SYN 报 文 段 中 附带 的 数据 字 节 数 (300 字 节 )。 我 们 
前 面 提 到 过 ， 从 伯克利 演变 来 的 实现 中 ， 每 建立 一 个 新 的 连接 时 总 会 把 ISS 增 加 至 少 64 000。 而 
64 000 已 经 大 于 T/TCP 协 议 的 默认 发 送 窗 口 宽度 (通常 为 4096 字 节 )， 这 就 使 客户 端 不 可 能 接受 
一 个 过 时 的 重复 SYN/ACK 报 文 段 。 


4.4BSD-Lite2 系 统 中 采用 了 我 们 在 3.2 节 中 讨论 过 的 随机 产生 ISS 值 方法 。ISS 的 
实际 增 量 平均 分 布 于 31 232 和 96 767 之 间 ， 均 值 为 63 999. 31 232 仍 然 比 默认 的 发 送 
窗口 大 ， 下 面 我们 将 要 讨论 的 CCecho 选 项 使 得 这 个 问题 存 有 争议 。 


然而 ，T/TCP 协 议 用 CCecho 选 项 对 过 时 的 重复 SYN/ACK 报 文 段 问 题 提供 完整 的 保护 。 客 
户 端 知 道 自己 发 出 的 SYN 报 文 段 中 的 CC 值 ， 而 服务 器 必须 在 CCecho 选 项 中 把 该 值 原样 发 回 给 
客户 端 。 如 果 服 务 器 的 响应 中 不 含 所 期 望 的 CCecho 值 ， 那 么 客户 端 就 把 该 响应 丢弃 (图 11-8)。 
CC 的 值 具有 单调 递增 特性 ， 而 且 在 至 多 2MSL 秒 的 时 间 内 就 循环 一 次 ， 这 就 可 以 保证 客户 端 

` 会 接受 过 时 的 重复 SYN/ACK 报 文 段 。 

注意 ， 客 户 不 能 对 服务 器 传 来 的 SYN/ACK 报 文 段 执行 TAO 测 试 ， 太 晚 了 。 服 务 器 已 经 接 
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受 了 客户 端的 SYN， 数 据 已 经 被 交付 给 了 服务 器 进程 ， 而 客户 收 到 的 SYN/ACK 报 文 段 中 也 含 
有 服务 器 给 出 的 响应 ， 此 时 客户 端 再 要 强迫 执行 三 次 担 手 就 太 迟 了 。 


重 传 的 SYN 报 文 段 


RFC 1644 和 我 们 在 本 节 中 的 讨论 都 忽略 了 客户 端的 SYN 或 服务 器 的 SYN 的 重 传 可 能 | 
例如 ， 在 图 4-10 中 ， 我 们 假设 icp_ccgen 在 0 时 刻 的 值 为 1， 接 着 假设 所 有 CC 值 为 1 的 SYN 报 
文 段 在 第 120 秒 时 都 已 经 过 时 消失 。 而 实际 上 也 可 能 是 这 样 的 ，CC 值 为 1 的 SYN 报 文 段 可 能 在 
第 0~75 秒 之 间 的 某 个 时 刻 重 传 了 , 于 是 所 有 CC 值 为 1 的 SYN 报 文 段 在 第 195 秒 时 才 会 过 时 消失 ， 
而 不 是 在 第 120 秒 时 就 过 时 了 (如 卷 2 第 664 页 所 述 ， 从 伯克利 演变 来 的 实现 中 ， 客 户 端 YN 报 
文 段 和 服务 器 SYN 报 文 段 的 重 传 超时 上 限 为 75 秒 )。 

这 并 不 影响 TAO 测 试 的 正确 性 ， 但 却 降低 了 tcp_ccgen 计 数 器 的 最 大 递增 速率 。 前 面 我 
们 讲 过 ，tcp_ccgen 计 数 器 的 最 大 递增 速率 是 在 2MSL 秒 的 时 间 里 递增 2?--1， 从 而 使 最 大 事 
务 速 率 达 到 大 约 每 秒 18 000 000 次 。 当 考虑 到 SYN 报 文 段 的 重 传 之 后 ， 上 述 最 大 速率 就 变 为 在 
2MSL+2MRX 秒 的 时 间 里 递增 2”-1， 其 中 MRX 是 系统 规定 的 SYN 报 文 段 重 传 时 限 ( 在 Net/3 中 
是 75 秒 )。 最 大 事务 速率 也 由 此 降低 到 大 约 每 秒 11 000 000 次 。 


4.6 小 结 


TCP 协 议 的 TIME_WAIT 状 态 有 两 个 功能 : 

1) 实现 了 连接 的 全 双 工 关闭 。 

2) 使 得 过 时 的 重复 报 文 段 超时 作废 。 

如 果 TATCP 连 接 的 持续 时 间 小 于 120 秒 (IMSL)， 那 么 TIME_WAIT 状 态 的 保持 时 间 只 要 8 售 
的 重 传 超 时 ， 而 不 是 240 秒 。 而 且 ， 在 前 一 次 连接 还 处 于 TIME_WAIT 状 态 时 ， 客 户 端 就 可 以 建 
立 一 个 连接 的 新 的 替身 ， 从 而 进一步 缩短 了 等 待 时 间 。 我 们 说 明了 为 什么 这 么 做 是 可 行 的 ， 仅 
受 限于 T/TCP 协 议 能 支持 的 最 大 事务 速率 (大 约 每 秒 18 000 000 次 )。 如 果 T/TCP 客 户 知道 要 与 同 
一 台 服 务 器 执行 大 量 事务 ， 那 么 它 每 次 都 可 以 使 用 同一 个 本 地 端口 ， 从 而 可 减少 TIME_WAIT 
状态 的 控制 块 的 数量 。 

TCP 的 TAO(TCP 加 速 打开 ) 测 试 使 得 T/TCP 的 客户 一 服务 器 程序 可 以 跳 过 三 次 握手 过 程 。 
这 是 在 服务 器 收 到 客户 端的 CC 值 大 于 服务 器 记录 的 该 客户 CC 值 时 实现 的 。 正 是 CC 值 的 单调 
递增 性 以 及 以 下 两 点 假定 ， 才 确保 了 服务 器 能 够 断定 客户 端的 SYN 是 新 的 ， 使 TITCP 能 够 跳 
过 三 次 担 手 过 程 : 

1) 所 有 报 文 段 都 有 一 个 有 限 的 生存 期 限 ，MSL 秒 ，; 

2) tcp_ccgen 计 数 器 的 最 大 递增 速率 为 :在 2MSL 秒 内 增加 2* 一 1。 


第 5 章 T/TCP 实 现 : 插口 层 


5.1 概述 


从 本 章 开 始 我 们 讨论 Net/3 版 中 T/TCP 协 议 的 实现 。 我 们 沿用 卷 2 的 编排 顺序 和 表达 风格 : 

。 第 5 章 : 插口 层 

X65. 路 由 表 

。 第 7 章 : 协议 控制 块 

* 第 8 章 : TCP 概 要 

。 第 9 章 : TCP 输 出 

。 第 10 章 : TCP 函 数 

。 第 11 章 : TCP 输 入 

。 第 12 章 : TCP 用 户 请 求 

在 这 些 章节 的 介绍 中 ， 我 们 都 假设 用 户 已 经 有 了 本 系列 书 的 卷 2 或 者 其 中 源 代 码 的 副本 。 这 样 
我 们 就 只 要 介绍 实现 T/TCP 协 议 所 需 的 1 200 行 新 代码 ， 而 不 需要 重 述 卷 2 已 介绍 过 的 15 000 行 代码 。 

T/TCP 协 议 对 插口 层 所 做 的 改动 是 很 小 的 :sosend 函 数 需要 处 理 MSG_EOF 标 志 ， 人 允许 协 
议 调用 sendto 函 数 和 sendmsg 函 数 隐 式 地 打开 和 关闭 连接 。 


5.2 常量 


T/TCP 协 议 中 需要 使 用 三 个 常量 : l 

1) <sys/socket .h> 中 定义 的 MSG_EOF。 如 果 在 调用 send、sendto 或 sendmsg 函 数 
时 设置 了 该 标志 ， 那 么 利用 该 连接 发 送 数 据 就 结束 了 ， 实 际 上 就 是 结合 了 write 和 
shutdown 两 个 函数 的 功能 。 在 卷 2 的 图 16-12 中 应 该 加 上 该 标志 。 

2) <sys/protosw.h> 中 定义 了 一 个 新 的 协议 请 求 PRU_SEND_EOF。 在 卷 2 的 图 15-17 中 
应 该 加 上 该 请 求 。 这 个 请 求 是 由 sosend 函 数 发 出 的 ,已 在 后 面 的 图 5-2 中 给 出 。 

3) <sys/protosw.h> 中 定义 了 一 个 新 的 协议 标志 PR_IMPLOPCL( 意 指 “ 隐 式 打开 和 关 
闭 ”)。 这 个 标志 有 两 重 含义 : (a) 协 议 允 许 在 调用 sendato 或 sendmsg 国 数 时 给 定 对 等 
端的 地 址 ， 而 不 必 在 此 之 前 调用 conncet 国 数 ( 隐 式 打开 );(b) 协 议 能 够 识别 MSG_EOF 
标志 ( 隐 式 关闭 )。 注 意 ,只 有 在 面向 连接 的 协议 (如 TCP) 中 才 需 要 (a)， 因 为 在 无 连接 的 
协议 中 总 是 可 以 直接 调用 sendto 和 sendmsg 函 数 而 不 需要 事先 调用 connect 函 数 。 
应 该 在 卷 2 的 图 7-9 中 加 上 该 标志 。 
协议 代码 中 switch 程 序 块 的 TCP 入 口 inetsw[2]( 卷 2 中 图 7-13 的 第 51~55 行 ) 应 该 在 
其 pr_f1lags 的 标志 值 中 加 上 PR_IMPLOPCL。 


5.3 sosend ži 


” 


sosend 国 数 有 两 处 改动 。 图 5-1 所 示 的 代码 用 来 奉 代 卷 2 第 397 页 中 第 314~321 行 的 程序 代码 。 
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uipc socket.c 


320 ^ if ((so-»so state & SS ISCONNECTED) == 0) ( 

321 g/* 

322 * sendto and sendmsg are allowed on a connection- 
323 * based socket only if it supports implied connect 
324 E (e.g., T/TOP). 

325 * Return ENOTCONN if not connected and no address is 
326 * supplied. 

327 *7 

328 if ((so-»so proto-»pr flags & PR CONNREQUIRED) && 

329 (so-»so proto-»pr flags & PR IMPLOPCL) -- 0) ( 
330 if ((so-»so state & SS ISCONFIRMING) == 0 && 

331 !(resid -- 0 && clen !- 0)) 

332 snderr (ENOTCONN); 

333 ) else if (addr -- 0) 

334 snderr(so-»so proto-»pr flags & PR CONNREQUIRED ? 
335 ENOTCONN : EDESTADDRREQ); 

336 } 


uipc_socket.c 
图 5-1 sosend 函 数 : 差错 检查 


注意 ， 对 代码 的 替换 在 这 里 实际 上 是 从 第 320 行 开始 的 ， 而 不 是 第 314 行 。 这 是 
因为 在 这 个 文件 的 前 面部 分 还 有 一 些 与 T/TCP 无 关 的 修改 。 由 于 我 们 要 用 这 里 的 17 行 
代码 替换 卷 2? 中 的 8 行 代 码 以 支持 T/TCP 协 议 ， 因 而 该 文件 后 面部 分 代码 段 中 的 行 号 也 
与 卷 2 中 对 应 的 代码 段 的 行 号 不 一 样 。 当 本 书 提 到 卷 2 中 的 代码 段 时 ， 我 们 所 说 的 行 
号 通常 都 是 指 在 卷 2 中 的 行 号 。 由 于 卷 3 中 的 代码 是 卷 2 中 的 相应 代码 经 过 增删 后 得 到 
的 ， 因 而 相同 功能 代码 段 的 行 号 会 比较 接近 ， 但 不 一 定 相 同 。 


320-336 修改 后 代码 段 的 作用 是 : 当 设 置 了 协议 的 PR_IMPLOPCL 标 志 ， 并 且 调 用 进程 给 
出 了 目的 地 址 时 ， 允 许 在 面向 连接 的 插口 上 调用 sendto 函 数 和 sendmsg 函 数 。 如 果 调 用 进 
程 没有 给 出 目的 地 址 ， 那 么 对 应 于 TCP 插 口 将 返回 ENOTCONN， 对 应 于 UDP 插 口 则 返回 
EDESTADDRREQ, 
330-331 这 个 if 语 名 使 得 当 连 接 处 于 SS_ISCONFIRMING 状 态 时 ， 人 允许 只 写 控 制 信息 而 不 
写 任何 协议 数据 。OSI TP4 协 议 采 用 了 这 种 做 法 ，TCP/IP 则 没有 采用 。 

图 5-2 所 示 的 是 对 sendto 函 数 的 修改 ， 图 中 代码 用 来 替代 卷 2 第 400 页 的 第 399~403 行 。 


uipc socket.c 


415 S = splnet(); /* XXX "y 

416 ps 

417 * If the user specifies MSG EOF, and the protocol 
418 * understands this flag (e.g., T/TCP), and there's 
419 * nothing left to send, then PRU SEND EOF instead 
420 * of PRU SEND.  MSG OOB takes priority, however. 
421 Ep 

422 req = (flags & MSG OOB) ? PRU SENDOOB : 

423 ((flags & MSG EOF) && 

424 (so-»so proto-»pr flags & PR IMPLOPCL) && 

425 (resid «- 0)) ? PRU SEND EOF : PRU, SEND; 

426 error = (*so-»so proto-»pr usrreqd) (so, req, top, addr, control); 
427 Splx(s); 


uipc socket.c 


图 5-2 sosendtKRZit: 协议 发 送 
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我 们 第 一 次 看 到 内 容 为 XXX 的 评注 。 这 是 为 了 提醒 读者 ， 所 注释 的 代码 作用 不 明 

确 ， 副 作用 也 不 明显 ， 抑 或 是 一 个 难题 的 快捷 解决 方法 。 本 例 中 ，spPlnet 函 数 用 于 

提高 处 理 优 先 级 ， 以 优先 执行 这 段 代 码 。 处 理 优先 级 用 图 5-2 底 部 所 示 的 splx 恢 复 。 

卷 2 的 1.12 节 叙述 了 Net3 中 各 种 中 断 的 级 别 。 
416-427 如 果 指 定 了 MSG_O00B 标 志 ， 那 就 发 出 PRU_SENDOOB 请 求 。 否 则 ， 如 果 指 定 了 
MSG_EOF 标 志 ， 协 议 又 支持 PR_IMPLOPCL 标 志 ， 而 且 再 没有 数据 要 交 给 协议 了 (resid 小 于 
或 等 于 0)， 那 就 发 出 PRU_SEND_EOP 请 求 而 不 是 通常 的 PRU_SEND 请 求 。 

回忆 3.6 节 中 的 例子 。 应 用 程序 调用 sendato 国 数 发 送 了 3300 字 节 数 据 ， 并 指定 了 
MSG_EOF 标 志 。 在 sosend 函 数 执行 的 第 一 次 循环 中 ， 图 5-2 所 示 的 代码 发 出 了 一 个 PRU_SEND 
请 求 ， 以 发 送 前 2048 字 节 数 据 (一 个 nbuf 徐 )。 在 第 二 次 循环 中 ， 发 出 PRU_SEND_EOF 请 求 ， 
以 发 送 剩 下 的 1252 字 节 数 据 ( 在 另 一 个 mbuf 徐 中 )。 


5.4 小 结 


T/TCP 给 TCP 增 加 了 隐 式 打开 和 关闭 的 功能 。 所 谓 隐 式 打开 是 指 应 用 程序 不 是 调用 
connect 函 数 来 建立 连接 ， 而 是 调用 sendto 函 数 或 sendmsg 函 数 并 指定 目的 地 址 来 建立 连 
接 。 而 隐 式 关闭 则 是 指 人 允许 应 用 程序 在 调用 senda、senato 或 sendmsg 国 数 时 指定 MSG_EOF 
标志 ， 从 而 把 输出 和 关闭 合并 起 来 发 布 。 图 1-10 中 对 sendto 函 数 的 调用 就 把 打开 、 写 和 关闭 
合并 在 一 个 系统 调用 中 实现 。 本 章 所 示 的 程序 代码 修改 给 Net/3 的 插口 层 加 上 了 隐 式 打开 和 关 
闭 功 能 。 


第 6 章 T/TCP 实 现 : 路 由 表 


6.1 概述 


TVTCP 需 要 在 其 每 主机 高 速 缓存 中 为 每 一 个 与 之 进行 过 通信 的 主机 创建 一 个 记录 项 。 每 个 
记录 项 包括 图 2-5 所 示 的 tao_cc、tao_ccsent 和 tao_mssopt 三 个 变量 。 已 有 的 IP 路 由 表 
是 每 主机 高 速 缓存 的 最 合适 位 置 。 在 Net/3 中 ， 利 用 卷 2 第 19 章 介绍 的 “克隆 ”标志 ， 很 容易 
为 每 一 个 主机 创建 一 个 每 主机 路 由 表 记 录 项 。 

在 卷 2 中 ， 我 们 已 经 知道 网 际 协 议 ( 没 有 T/TCP) 利 用 了 Net/3 提 供 的 一 般 路 由 表 功 能 。 卷 2 的 
图 18-17 说 明了 调用 rn_addroute 函 数 就 可 增加 路 由 记录 ， 调 用 rn_delete 可 以 删除 路 由 记 
录 ， 调 用 rn_match 可 以 查找 路 由 记录 ， 以 及 调用 rn_walktree 可 以 遍历 整 棵 树 (Net/3 中 用 
二 又 树 来 存储 其 路 由 表 ， 叫 作 基 树 (radix tree)。 在 TCP/IP 中 ， 除 了 这 些 一 般 功 能 外 ， 不 再 需要 
有 其 他 功能 支持 。 然 而 在 TITCP 中 就 不 一 样 了 。 

既然 一 个 主机 可 以 在 一 个 很 短 的 时 间 内 与 成 百 上 千 的 主机 通信 (例如 几 个 小 时 ， 或 者 对 于 
一 个 非常 繁忙 的 WWW 服 务 器 来 说 可 能 不 需要 一 个 小 时 ， 详 见 14.10 节 的 示例 )， 因 此 就 需要 有 
一 些 方法 使 每 主机 路 由 表 中 的 路 由 记录 超时 作废 。 本 章 我 们 主要 研究 T/TCP 协 议 在 IP 路 由 表 中 
动态 创建 和 删除 每 主机 路 由 表 记 录 项 的 功能 。 


卷 2 中 的 习题 19.2 给 出 了 自动 地 为 每 一 个 与 之 通信 的 对 等 主机 创建 每 主机 路 由 表 
记录 项 的 一 个 琐 细 方法 。 我 们 在 本 章 中 所 叙述 的 方法 在 概念 上 与 其 非常 相似 ， 但 对 
大 多 数 TCP/IP 路 由 都 能 自动 进行 。 习 题 中 创建 的 每 主机 路 由 是 不 会 超时 的 ; 创建 以 
后 它们 就 一 直 存 在 ， 直 到 主机 再 次 启动 或 者 管理 人 员 手 工 删除 。 这 就 需要 有 一 个 更 
好 的 方法 来 自动 地 管理 所 有 的 每 主机 路 由 。 

并 非 每 一 个 人 都 认为 已 有 的 路 由 表 是 开设 T/TCP 每 主机 高 速 缓存 的 好 地 方 。 另 一 
个 方法 是 将 T/TCP 每 主机 高 速 缓存 在 内 核 中 作为 其 自身 基 树 来 存储 。 这 项 技术 (一 牺 
分 立 的 基 树 ) 容 易 实 现 ， 利 用 了 内 核 中 已 有 的 一 般 基 树 功能 ， 在 Net/3 的 网 络 文件 系统 
NFS 中 就 采用 了 这 个 方法 。 


6.2 代码 介绍 


C 语 言 文件 netinet/in_rmx.c 中 定义 了 T/TCP 为 TCP/IP 的 路 由 功能 所 增加 的 函数 。 这 
个 文件 中 只 包含 了 我 们 在 本 章 中 所 介绍 的 专门 用 于 Internet 的 函数 。 我 们 将 不 会 介绍 卷 2 第 18、 
19 和 20 章 中 所 叙述 的 所 有 路 由 函数 。 

图 6-1 中 给 出 了 专门 用 于 Internet 的 新 增 路 由 函数 (在 本 章 中 介绍 的 函数 用 带 阴 影 椭 贺 
表示 ， 函 数 名 字 用 in_ 开 头 ) 和 一 般 路 由 函数 (这 些 函 数 的 名 字 通 常用 rn_ 或 rt 开头 ) 之 间 
的 关系 。 
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图 6-1 专用 于 Internet 的 路 由 函数 之 间 的 关系 


全 局 变量 


图 6-2 中 给 出 了 专用 于 Internet 的 新 增 全 局 变量 。 


FreeBSD 版 允许 系统 管理 员 用 sysct1 程 序 修 改 图 6-2 中 最 后 三 个 变量 的 值 ， 程 序 
要 加 前 级 net .inet.ip。 我 们 没有 给 出 完成 这 个 功能 的 程序 代码 ， 因 为 它 只 是 对 卷 
2 图 8-35 中 的 ipP_sysct1 函 数 做 了 一 些 补 充 。 


rtq timeout i in_rtqtimo 运 行 的 频率 (默认 值 = 每 一 次 10 分 钟 ) 


rtq toomany i 在 动态 删除 开始 前 有 多 少 路 由 
rtq reallyold i 路 由 已 经 确实 很 陈旧 时 ， 存 在 了 多 长 时 间 
rtq minreallyold i rtq_reallyold 最 小 值 


图 6-2 专用 于 Internet 的 全 局 路 由 变量 





6.3 radix node head 结 构 


在 radix_node_head 结 构 中 新 增加 了 一 个 指针 ( 卷 2 的 图 18-16): rnh_close。 当 它 指 
癌 in_clsroute 时 ,除了 指向 某 个 下 路 由 表 外 ， 它 的 值 总 是 空 的 ， 见 后 面 的 图 6-7 中 。 

这 个 函数 指针 用 在 rtfree 函 数 中 。 郑 2 的 图 19-5 中 的 第 108 行 和 第 109 行 之 间 要 加 上 下 面 
这 些 程 序 行 ， 以 说 明 并 初始 化 自动 变量 rnh: 

struct radix node head *rnh = rt_tables[rt_key(rt)->sa_family]; 
以 下 3 行程 序 则 加 在 第 112~113 行 之 间 : 


if(rnh-»rnh close && rt-» rt- refcnt -- 0) ( 
rnh-»rnh close((struct radix node *)rt, rnh); 
) 
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如 果 这 个 函数 指针 非 空 ， 并 且 引 用 计数 达到 0， 就 要 调用 关闭 函数 。 
A 
6.4 rtentry 结 构 


T/TCP 需 要 在 rtentry 结 构 中 增加 两 个 路 由 标志 ( 卷 2 第 464 页 )。 但 是 现 有 的 rt_flags 项 
是 一 个 16 位 短 整数 ， 并 且 15 位 已 经 占用 了 ( 卷 2 第 464 页 )。 为 此 要 在 rtentry 结 构 中 新 增 一 个 
标志 项 rt_prflags。 

另 一 个 解决 的 方法 是 将 短 整 数 rt flags 改 为 长 整数 ， 这 种 做 法 在 将 来 的 版 本 中 

可 能 会 有 。 

T/TCP 使 用 了 rt_prflags 的 两 个 标志 位 。 

*RTPRF WASCLONED 是 由 rtrequest 设 置 的 ( 卷 2 第 488 页 第 335~336 行 )， 从 设置 了 

RTF_CLONING 标 志 的 记录 项 创建 一 个 新 的 记录 项 时 就 要 设置 该 标志 。 

。RTPRF_OURS 是 由 in_clsroute 设 置 的 (图 6-7)， 当 了 P 路 由 的 最 后 一 个 克隆 参考 项 关闭 时 就 

要 设置 该 标志 。 这 时 ， 要 设置 一 个 定时 器 ， 以 便 在 将 来 的 某 个 时 间 将 这 个 路 由 表 项 删除 。 


6.5 rt metrics 结 构 


T/TCP 修 改 路 由 表 的 目的 是 在 每 个 路 由 表 记 录 项 中 存储 附加 的 每 主机 信息 ， 实 际 上 也 就 是 
三 个 变量 : tao_cc、tao_ccsent 和 tao_mssopt。 为 了 容纳 这 些 附加 的 信息 ， 在 
rt_metrics 结 构 ( 卷 2 第 464 页 ) 中 就 需要 有 一 个 新 的 字段 : 

u long rmx filler[4]; /* protocal family specific metrics */ 


这 就 有 了 一 个 16 字 节 的 协议 专用 向 量 ，T/TCP 可 以 利用 ， 如 图 6-3 所 示 : 


tcp_var.h 
153 struct rmxp tao { 
154 tcp cc tao cc; /* latest CC in valid SYN from peer */ 
155 tcp cc tao ccsent; /* latest CC sent to peer */ 
156 u short tao mssopt; /* latest MSS received from peer */ 
157 }; 
158 4define rmx taop(r) ((struct rmxp tao *)(r).rmx filler) 
tcp var.h 


图 6-3 T/TCP 用 作 TAO 高 速 缓存 的 rmxp_tao 结 构 


153-157 tcp_cc 数 据 类 型 用 于 连接 计数 ， 是 用 typedef 定 义 的 一 个 无 符号 长 整数 (类 似 于 
TCP 的 序号 )。tcp_cc 变 量 的 值 为 0， 表 示 它 还 未 定义 。 

158 当 给 定 一 个 指向 ztentzy 结 构 的 指针 ， 宏 rmx_taop 就 返回 一 个 指向 相应 mxP_tao 
结构 的 指针 值 。 


6.6 in inithead Zi 


卷 2 第 504 页 详细 介绍 了 Net/3 中 路 由 表 初 始 化 工作 的 所 有 步骤 。T/TCP 所 做 的 第 一 项 修改 
是 将 inetdomain 结 构 中 的 aom_Ftattach 字 段 指向 imn_ inithead， 而 不 是 指向 
rn_inithead( 卷 2 第 151 页 )。 图 6-4 中 给 出 了 in_inithead 国 数 。 

1. 执行 路 由 表 的 初始 化 
222-225 rn inithead 用 于 分 配 并 初始 化 一 个 radix_node_head 结 构 。 在 Net/3 中 也 就 


62 第 一 部 分 TCP*$»5x 


这 些 功 能 。 该 函数 的 其 他 功能 是 T/TCP 新 增加 的 ， 并 且 仅 仅 在 “ 实 ” 路 由 表 初 始 化 时 执行 。 
在 NFS 装 载 点 初始 化 另 一 个 路 由 表 时 也 会 调用 这 个 函数 。 

2. 改变 函数 指针 
226-229 rn _ inithead 还 要 将 radix_node_head 结 构 中 取 默 认 值 的 两 个 国 数 指针 修改 
为 rnh_addaddqr 和 rnh_matchaddr。 它 们 也 是 在 卷 2 图 18-17 中 给 出 的 四 个 指针 中 的 两 个 。 
这 就 使 得 在 调用 一 般 基 结 点 函数 前 可 以 执行 Internet 中 专 有 的 一 些 动 作 。znh_close 国 数 指针 
是 T/TCP 中 新 加 的 。 


in rmx.c 
218 int 
219 in inithead(void **head, int off) 
220 ( 
221 struct radix node head *rnh; 
222 if (!rn inithead(head, off)) 
223 return (0); 
224 if (head !- (void **) &rt tables[AF INET]) 
225 return (1); /* only do this for the real routing table */ 
226 rnh - *head; 
227 rnh-»rnh addaddr - in addroute; 
228 rnh-»rnh matchaddr - in matroute; 
229 rnh-»rnh close - in clsroute; 
230 in rtqtimo(rnh); /* kick off timeout first time */ 
231 return (1); 
232 ) . 
in rmx.c 
图 6-4 in inithead 国 数 
3. 初始 化 超时 函数 


230 in_rtqtimo 是 超时 函数 ， 是 第 一 次 调用 。 这 个 函数 的 每 一 次 调用 ， 它 总 会 安排 在 将 
来 再 次 被 调用 。 
6.7 in addroute 函 数 


用 rtrequest 可 以 创建 一 个 新 的 路 由 表 记 录 项 ， 它 们 或 者 是 RTM_ADD 命 令 的 结果 ,也 
可 能 是 RTM_RESOLVE 命 令 的 结果 。 这 两 个 命令 都 会 从 已 经 存在 并 且 设 置 了 克隆 标志 的 记录 
项 中 创建 一 个 新 的 记录 项 ( 卷 2 第 488~489 页 )。 创 建 以 后 就 要 调用 rnh_addaddr 函 数 ， 我 们 在 
Internet 协 议 中 看 到 的 是 in_addaroute 国 数 。 图 6-5 给 出 了 这 个 新 国 数 。 


in rmx.c 
47 static struct radix node * = 
48 in addroute(void *v arg, void *n arg, struct radix node head *head, 
49 struct radix node *treenodes) 
50 ( 
51 struct rtentry *rt - (struct rtentry *) treenodes; 
52 /* 
53 * For IP, all unicast non-host routes are automatically cloning. 
54 i 
55 if (!(rt->rt_flags & (RTF_HOST | RTF CLONING))) ( " 
56 struct sockaddr in *sin - (struct sockaddr in *) rt key(rt); 
57 if (!IN MULTICAST(ntohl(sin-»sin addr.s addr))) ( 


图 6-5 in_addroute f% 
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58 rt->rt_flags |= RTF_CLONING; 
59 f } 
60 } 
61 return (rn addroute(v arg, n arg, head, treenodes)); 
62 ) . 
in rmx.c 
图 6-5 (fx) 


52-61 如 果 所 增加 的 路 由 不 是 一 个 主机 路 由 ， 也 没有 设置 克隆 标志 ， 这 时 就 要 检查 路 由 表 
的 主键 (IP 地 址 )。 如 果 耳 地址 不 是 一 个 多 播 地 址 ， 该 新 创建 的 路 由 表 记 录 项 就 要 设置 克隆 标志 。 
rn _ addroute 为 路 由 表 增 加 记录 项 。 

这 个 函数 的 功能 是 为 所 有 非 多 播 网 络 路 由 设置 克隆 标志 ， 包 括 默 认 的 路 由 。 这 个 克隆 标 
志 的 作用 是 为 任何 一 个 在 路 由 表 中 能 够 查 到 一 条 非 多 播 网 络 路 由 或 默认 路 由 的 目的 地 址 创建 
一 个 新 的 主机 路 由 。 这 个 新 克隆 的 主机 路 由 是 在 它 第 一 次 查找 时 创建 的 。 


6.8 in matroute 函 数 


rtallocl( 卷 2 第 483 页 ) 在 查找 一 个 路 由 时 调用 了 rnh_matchadar 指 针 所 指向 的 函数 
( 即 图 6-6 中 所 示 的 in_matzroute 畏 数 )。 


in rmx.c 
68 static struct radix node * 
69 in matroute(void *v arg, struct radix node head *head) 
70 ( 
71 struct radix node *rn - rn match(v arg, head); 
72 struct rtentry *rt - (struct rtentry *) rn; 
73 if (rt && rt-»rt refcnt -- 0) ( /* this is first reference */ 
74 if (rt-»rt prflags & RTPRF OURS) ( 
75 rt-»rt prflags &- ^RTPRF OURS; 
76 rt-»rt rmx.rmx expire = 0; 
773 ) 
78 ) 
79 return (rn); 
80 ) n 
in rmx.c 


图 6-6 in matroute 国 数 


调用 rn_match 来 查找 路 由 
71-78 xn_match 在 路 由 表 中 查找 路 由 。 如 果 找 到 了 一 个 路 由 并 且 其 参考 计数 值 为 0， 这 就 
是 该 路 由 表 记 录 项 的 第 一 个 参考 路 由 。 如 果 记 录 项 已 经 超时 ， 也 就 是 说 ， 如 果 设 置 了 
RTPRF_OURS 标 志 ， 这 时 就 要 把 这 个 标志 将 关闭 ， 并 且 将 rmx_expire 定 时 器 设置 为 0。 当 
路 由 已 经 关闭 ， 但 在 删除 前 又 重新 使 用 该 路 由 时 ， 就 往往 会 发 生 这 种 情况 。 


6.9 in clsroute 函 数 


我 们 曾经 提 到 过 ，T/TCP 在 radix_node_head 结 构 中 增加 了 一 个 新 的 函数 指针 
rnh_close。 当 参考 计数 值 为 零 时 ， 这 个 函数 就 要 在 rtfree 中 调用 ， 这 又 将 调用 
in_clsroute 国 数 ， 如 图 6-7 所 示 。 

1. 检查 标志 
93-99 ”要 做 以 下 的 测试 路 由 必须 是 正常 的 ，RTF_HOST 标 志 必 须 是 打开 的 ( 即 这 不 是 一 个 
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in rmx.c 

89 static void 

90 in clsroute(struct radix node *rn, struct radix node head *head) 

91 ( 

92 struct rtentry *rt - (struct rtentry *) rn; 

93 if (!(rt-»rt flags & RTF UP)) 

94 return; 

95 if ((rt-»rt flags & (RTF, LLINFO | RTF HOST)) !- RTF. HOST) 

96 return; 

97 if ((rt-»rt prflags & (RTPRF WASCLONED | RTPRF. OURS) ) 

98 !- RTPRF WASCLONED) 

99 return; 
100 yz 

101 * If rtq reallyold is 0, just delete the route without 

102 * waiting for a timeout cycle to kill it. 

103 iai 

104 if (rtq reallyold !- 0) ( 

105 rt-»rt prflags |- RTPRF OURS; 

106 rt-»rt rmx.rmx expire = time.tv sec + rtq reallyoldà; 

107 ) else ( 

108 rtrequest(RTM DELETE, 

109 (struct sockaddr *) rt key(rt), 

110 rt-»rt gateway, rt mask(rt), 

111 rt-»rt flags, 0); 

112 ) 

113. j à 

in rmx.c 


图 6-7 in clsroutet&üZü 


网 络 路 由 )，RTE_LLINEO 标 志 必 须 是 关闭 的 (对 ARP 记录 项 ， 该 标志 要 打开 )，RTPRF 
WASCLONED 必 须 是 打开 的 (记录 项 是 克隆 的 )，RTPRF_OURS 必 须 是 关闭 的 (该 记录 项 还 未 超 
时 )。 如 果 这 些 测 试 中 有 任何 一 项 失败 ， 函 数 都 将 结束 并 返回 。 

2. 设置 路 由 表 记 录 项 的 终止 时 间 
100-112 在 通常 的 情况 下 ， 如 果 rtq_reallyold 非 零 ， 就 要 打开 RTPRF_OURS 标 志 ， 并 
且 要 将 rmx_expire 时 间 值 设置 为 当前 时 钟 的 秒 值 (time .tv_sec) 加 上 rtq_reallyold 值 
(一 般 为 3600 秒 ， 即 1 小 时 )。 如 果 系 统管 理 员 用 sysct1l 程 序 将 rtq_reallyo1ld 的 值 设置 为 0， 
该 路 由 就 会 立即 被 rtrequest 删 除 。 


6.10 in rtqtimo 函 数 


图 6-4 中 ，in _inithead 首 次 调用 in_rtqtimo 函 数 。 每 一 次 调用 执行 jn_rtqtimo 时 ， 
它 都 会 自动 安排 在 rtq_timeout (默认 值 为 600 秒 或 者 10 分 钟 ) 后 再 次 得 到 调用 。 

in_rtqtimo 的 目的 是 (用 一 般 的 rn_walktree 函 数 ) 找 遍 整 个 IP 路 由 表 ， 对 每 一 个 记 
录 项 调用 in_rtqkill。in_rtqkil1 要 决定 是 否 删 除 相 应 记录 项 。 需 要 从 
in_rtqtimo 传 递 有 关 信 息 给 in_rtqki1l1( 回 顾 图 6-1)， 或 者 反 过 来 。 传 递 是 通过 给 
rn_walktree 的 第 三 个 变量 实现 的 。 这 个 变量 是 rn _walktree 传 递 给 in_rtqki11 的 
一 个 指针 。 由 于 该 变量 是 一 个 指针 ， 所 以 信息 可 以 在 in_rtqtimo 和 in_rtqk 阁 1 之 间 的 
任何 一 个 方向 上 传递 。 

in_rtqtimo 传 递 给 rn_walktree 的 指针 指向 rtqk_arg 结 构 ， 这 个 结构 如 图 6-8 所 示 。 
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in rmx.c 
114 styuct rtqk arg ( 
115 struct radix node head *rnh; /* head of routing table */ 
116 int found; /* #entries found that we're timing out */ 
117 int killed; /* $entries deleted by in rtqgkill */ 
118 int updating; /* set when deleting excess entries */ 
119 int draining; /* normally 0 */ 
120 time t nextstop; /* time when to do it all again */ 
121 F; : 
in rmx.c 
图 6-8 rtqk_arg 结 构 : in rtgtimolgin rtqkil1 之 间 传 递 的 信息 
研究 in_rtqtimo 函 数 时 ， 我 们 可 以 看 到 这 些 字段 是 怎样 用 的 。 如 图 6-9 所 示 。 
in rmx.c 
159 static void 
160 in rtqtimo(void *rock) 
161 ( 
162 struct radix node head *rnh - rock; 
163 struct rtqk arg arg; 
164 struct timeval atv; 
165 static time t last adjusted timeout - 0; 
166 int s; 
167 arg.rnh,- rnh; 
168 arg.found - arg.killed - arg.updating - arg.draining - 0; 
169 arg.nextstop = time.tv sec + rtq timeout; 
170 S - splnet(); 
171 rnh-»rnh walktree(rnh, in rtqgkill, &arg); 
173 splx(s); 
173 /* 
174 * Attempt to be somewhat dynamic about this: 
175 * If there are 'too many' routes sitting around taking up space, 
176 * then crank down the timeout, and see if we can't make some more 
177 * go away. However, we make sure that we will never adjust more 
178 * than once in rtq timeout seconds, to keep from cranking down too 
179 * hard. 
180 *y 
181 if ((arg.found - arg.killed > rtq toomany) && 
182 (time.tv sec - last adjusted timeout »- rtq timeout) && 
183 rtq reallyold » rtq minreallyold) ( 
184 rtq reallyold - 2 * rtq reallyold / 3; 
185 if (rtq reallyold « rtq minreallyold) 
186 rtq reallyold - rtq minreallyold; 
187 last adjusted timeout - time.tv sec; 
188 log(LOG DEBUG, "in rtqtimo: adjusted rtq reallyold to $dWMn", 
189 rtq reallyold); 
190 arg.found = arg.killed = 0; 
191 arg.updating - 1; 
192 S - splnet(); 
193 rnh-»rnh walktree(rnh, in rtgkill, &arg); 
194 splxí(s); 
195 ) 
196 atv.tv usec - 0; 
197 atv.tv sec - arg.nextstop; 
198 timeout(in rtqtimo, rock, hzto(&atv)); 
199 ) ; 
in rmx.c 


图 6-9 in _rtqtimo 国 数 
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1. 设置 ztqk_azrg 结 构 并 调用 rn_walLktree 
167-172 rtqk_arg 结 构 的 初始 化 包括 : 在 IP 路 由 表 的 首部 设置 [rnh， 计 数 器 found 和 
killed 清 零 ，draining 和 update 标 志清 零 ， 将 nextstop 设 置 为 当前 时 间 ( 秒 级 ) 加 上 
rtq timeout(600 秒 ， 即 10 分 钟 )。rn_walktree 要 找 遍 整个 IP 路 由 表 ， 对 每 一 个 记录 项 调 
用 in rtqkil1( 图 6-11)。 

2. 检查 路 由 表 记录 项 是 否 过 多 
173-189 如 果 以 下 三 个 条 件 满足 ， 就 说 明 路 由 表 中 的 记录 项 过 多 

1) 已 经 超时 但 仍 未 删除 的 路 由 表 记 录 项 数 (found 减 去 killed) 超 过 了 rtq_toomany( 默 认 

值 为 128)。 

2) 上 一 次 执行 本 项 操作 至 今 所 经 过 的 秒 数 超过 了 rtq_timeout(600 秒 ， 即 10 分 钟 ) 

3) rtq_really 超 过 了 rtq_minreallyold( 上 默认 值 为 10)。 

如 果 以 上 条 件 全 部 成 立 ， 则 将 rtq_reallyold 设 置 为 其 当前 值 的 2/3( 用 整数 除法 )。 由 于 
该 值 的 初始 值 为 3600 秒 (60 分 钟 )， 因 此 它 的 取 值 就 会 分 别 是 3600、2400、1600、1066 和 710， 等 
等 。 但 是 该 值 不 允许 低 于 rtq_minreallyold( 默 认 值 为 10 秒 )。 当 前 时 间 值 记录 在 静态 变量 。 

last adjusted timeout'h, 并且 要 有 一 个 调试 消息 发 送 给 sys1logd 守 护 程序 
([Stevens 1992] 的 13.4.2 节 中 给 出 了 如 何 用 1og 函 数 发 送 消息 给 sys1logd 和 守护 程序 )。 这 段 代 码 
以 及 减少 rtq_reallyola 值 的 目的 是 缩短 路 由 表 的 处 理 周期 ， 在 路 由 表 中 记录 项 过 多 时 册 
除 过 时 的 路 由 。 

190-195 rtqk arg 结 构 中 的 计数 器 found 和 killed 又 初始 化 为 0，updating 标 志 此 时 
设置 为 1!， 再 次 调用 rn walktree, 

196-198 in redqkil1 国 数 将 ztdqdk_azrg 结 构 中 的 nextstop 字 段 设 置 为 下 次 调用 
in_rtqtimo 的 时 间 。 内 核 的 timeout 函数 会 安排 这 个 事件 在 需要 的 时 候 发 生 。 

每 10 分 钟 就 游历 整个 路 由 表 一 人 遍 需 要 多 大 的 开销 ? 很 明显 这 依赖 于 路 由 表 中 记录 
项 的 数目 。 在 14.10 节 中 我 们 模拟 了 一 个 繁忙 的 Web 服 务 器 中 的 T/TCP 路 由 表 大 小 ， 发 
现 即 使 24 小 时 内 服务 器 要 与 S000 个 不 同 的 客户 连接 ， 并 且 主 机 路 由 的 超时 间隔 为 1 小 
时 ， 路 由 表 中 也 从 不 会 超过 550 个 记录 项 。 目 前 ， 一 些 Internet 主 干 路 由 器 中 有 成 千 上 
万 条 的 路 由 表 记 录 项 ， 但 是 它们 不 是 主机 ， 而 是 路 由 器 。 我 们 并 不 会 希望 主干 路 由 器 
支持 T/TCP， 因 此 也 不 必 有 规律 地 游历 这 样 一 个 非常 大 的 路 由 表 以 删除 过 时 的 路 由 。 


6.11 in rtqkil1l 函 数 


rn walktree 要 调用 in_rtqkil1 函 数 ， 其 中 rn _walktree 又 是 被 jn_rtqtimo 调 用 
的 。 我 们 在 图 6-11 中 所 示 的 程序 in_rtqki1l1 就 用 于 在 必要 时 删除 中 路 由 表 记 录 项 。 

1. 只 处 理 已 经 超时 的 记录 项 
134-135 ”这 个 函数 只 对 设置 了 RTPRF_OURS 标 志 的 记录 项 进行 处 理 ， 也 就 是 说 ， 只 处 理 已 
经 被 in_clszroute 关 闭 了 的 记录 项 ( 即 它们 的 参考 计数 值 已 经 达到 零 ) 和 已 经 过 了 一 个 超时 间 
隔 (通常 为 1 小 时 ) 而 过 期 的 记录 项 。 这 个 函数 不 影响 正在 使 用 的 路 由 (因为 这 些 路 由 的 
RTPRF_OURS 标 志 不 会 打开 的 )。 
136-146 如 果 设 置 了 daraining 标 志 (在 当前 的 实现 中 是 永远 不 会 设置 的 )， 或 者 超时 间隔 已 
到 (rmx_expire 时 间 小 于 当前 时 间 )， 相 应 的 路 由 就 被 rtrequest 删 除 。rtqk_arg 结 构 中 
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的 found 字 段 累计 已 经 设置 了 RTPRF_OURS 标 志 位 的 路 由 表 记 录 项 数 ，killed 字 段 则 用 于 


累计 被 删除 的 记录 项 数 。 


147-151 else 语句 在 当前 记录 项 还 没有 超时 时 执行 。 如 果 设 置 了 updaating 标 志 (图 6-9 中 
我 们 已 经 看 到 ， 当 过 期 的 路 由 太 多 时 就 会 设置 该 标志 ， 或 者 下 一 次 对 整个 路 由 表 进 行 处 理 时 

会 设置 该 标志 )， 并 且 还 远 未 到 过 期 时 间 ( 一 定 是 在 将 来 某 一 时 刻 ， 以 便 相 减 时 产生 一 个 正 
值 )， 这 时 就 将 过 期 时 间 重 新 设置 为 当前 时 间 加 上 rtq_reallyold。 考 虑 图 6-10 所 示 的 例子 


就 容易 理解 了 。 


后 过 期 时 间 初 始 设置 为 3600 秒 





in clsroute in rtqtimo 
in rtgkill 


时 间 差 =3100 
此 后 过 期 时 间 重 置 为 2400 秒 





图 6-10 in_rtqkill 重 新 设置 过 期 时 间 


in rmx.c 

127 static int 

128 in rtgkill(struct radix node *rn, void *rock) 

129 ( 

130 struct rtqgk arg *ap = rock; 

131 struct radix node head *rnh - ap-»rnh; 

132 struct rtentry *rt - (struct rtentry *) rn; 

133 int err; 

134 if (rt-»rt prflags & RTPRF OURS) ( 

135 ap-»found-**; 

136 if (ap-»draining || rt-»rt rmx.rmx expire <= time.tv sec) ( 

137 if (rt-»rt refcnt > 0) 

138 panic("rtgkill route really not free"); 

139 err - rtrequest(RTM DELETE, 

140 (struct sockaddr *) rt key(rt), 

141 rt-»rt gateway, rt mask(rt), 

142 rt-»rt flags, 0); 

143 if (err) 

144 log(LOG WARNING, "in rtqgkill: error $dWMn", err); 

145 else 

146 ap->killed++; 

147 } else { 

148 if (ap-»updating && 

149 (rt-»rt rmx.rmx expire - time.tv sec > rtq reallyold)) ( 

150 rt-»rt rmx.rmx expire = time.tv sec + rtq reallyold; 

151 ) 

152 ap-»nextstop - lmin(ap-»nextstop, rt-»rt rmx.rmx expire); 

153 ) 

154 ) 

155 return (0); 

156 ) : 
in rmx.c 


图 中 x 轴 为 时 间 ， 单 位 是 秒 。 


图 6-11 in rtgkillreR AZ 


一 个 路 由 在 时 刻 100 时 被 in_clsroute 关 闭 ( 当 它 的 参考 计 
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数值 达到 零 时 )， 同 时 ztq_real1lyolda 有 了 初始 值 3600(1 小 时 )。 这 样 ， 这 个 路 由 的 过 期 时 间 
就 为 3700。 但 在 时 刻 600， 执行 了 in_rtqtimo， 并 且 路 由 未 删除 (因为 它 的 过 期 时 间 是 在 
3100 秒 ， 还 未 到 )， 但 由 于 路 由 记录 项 太 多 ， 使 得 in_rtqtimo 将 rtq_reallyold 的 值 重 置 
为 2400、 将 updating 设 置 为 1， 并 且 rn walktree 再 次 处 理 整 个 IP 路 由 表 。 此 时 
in_rtqki1l1 发 现 updating 已 经 是 1 并 且 路 由 将 在 3100 秒 时 过 期 。 因 为 3100 大 于 2400， 过 期 
时 间 就 要 重 置 为 过 2400 秒 以 后 ， 也 就 是 在 3000 秒 的 时 刻 。 路 由 表 变 大 时 ， 过 期 时 间 也 就 变 短 。 

2. 计算 下 一 个 过 期 时 间 
152-153 每 当 发 现 一 个 记录 项 已 经 过 期 但 其 过 期 时 间 还 未 到 时 ， 就 要 执行 这 段 代码 。 
nextstop 要 设置 为 其 当前 值 与 路 由 表 记 录 项 过 期 时 间 中 的 最 小 值 。 前 面 讲 过 ，nextstop 
的 初始 值 是 由 in_rtaqtimo 设 置 的 ,设置 值 为 当前 时 间 加 上 rtq_timeout 的 值 ( 即 10 分 钟 
以 后 )。 

想 想 图 6-12 所 示 的 例子 。x 轴 代表 时 间 ， 单 位 为 秒 ， 黑 点 的 时 刻 为 0、600、…， 是 调用 
in_rtdtimo 国 数 的 时 刻 。 





in clsroute 路 由 过 期 
100 300 3700 3900 
和 
0 600 1200 1800 2400 3000 3600 4500 


图 6-12 根据 路 由 过 期 时 间 执 行 in_rtqtimo 


in_addroute 创 建 一 个 JP 路 由 ， 然 后 在 时 刻 100 时 被 in_clsroute 关 闭 。 它 的 过 期 时 间 
设置 为 3700(1 小 时 以 后 )。 在 时 刻 300 创 建 了 第 二 个 路 由 ， 然 后 被 关闭 ， 其 过 期 时 间 设 为 3900。 
in _rtqtimo 函 数 每 十 分 钟 就 执行 一 次 ， 分别 是 在 时 刻 0、600、1200、1800、2400、3000 和 
3600 等 。 从 时 刻 0 至 时 刻 3000，nextstop 的 值 设置 为 当前 时 刻 加 上 600， 这 样 在 时 刻 3000 为 
这 两 个 路 由 分 别 调用 in _rtqkill 有 时 ，nextstop 就 改 为 了 3600， 因为 3600 小 于 3700 和 3900。 
但 是 在 时 刻 3600 为 这 两 个 路 由 分 别 又 调用 in_rtqki1ll 时 ，nextstop 就 设置 为 3700， 因 为 
3700 小 于 3900， 也 小 于 4200。 这 就 意味 着 在 时 刻 3700 将 再 次 调用 in_rtqtimo， 而 不 是 在 时 
刻 4200。 此 外 ， 当 in_rtqki1l1 在 时 刻 3700 被 调用 时 ， 因 为 另 一 个 路 由 需要 在 时 刻 3900 过 期 ， 
这 就 要 将 nextstop 设 置 为 3900。 假 设 没有 别 的 I[P 路 由 要 过 期 ， 在 时 刻 3900 执 行 了 
in rtqtimo 以 后 ， 它 将 在 4500、5100 等 时 刻 再 次 执行 。 


过 期 时 间 的 交互 影响 


在 路 由 表 记 录 项 的 过 期 时 间 和 rt_metrics 结 构 中 的 rmx_expire 字 有 段 之 间 会 有 一 些微 
小 的 交互 影响 。 首 先 ， 地 址 解析 协议 ARP 也 同样 用 该 字段 实现 ARP 记 录 项 的 超时 ( 卷 2 的 第 21 
章 )。 这 意味 着 路 由 表 中 有 关 本 地 子 网 中 某 一 主机 的 路 由 表 记 录 项 (以 及 与 其 相关 的 TAO 信息 ) 
在 该 主机 的 ARP 记 录 项 被 删除 时 也 会 同时 被 删除 ， 通 常 是 每 20 分 钟 执行 一 次 删除 。 这 个 间隔 
比 in_rtqki11(1 小 时 ) 所 用 的 默认 过 期 时 间 要 短 得 多 。 回 顾 前 面 应 该 记得 ，in_clsroute 
明确 地 忽略 已 设置 了 RTM_LLINEO 标 志 的 ARP 记 录 项 (图 6-7)， 让 ARP 对 它们 执行 网 时 处 理 ， 
而 不 用 ima_ rtqkill, 

其 次 ,执行 Toute 程 序 去 读 取 并 打印 一 个 克隆 的 T/TCP 路 由 表 记 录 项 的 度量 数据 和 过 期 
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时 间 的 副作用 是 会 重 置 其 过 期 时 间 。 这 种 情况 是 这 样 的 。 假 设 有 一 个 使 用 过 的 路 由 关闭 了 (其 
参考 计数 值 变 为 零 )。 关 闭 时 ， 其 过 期 时 间 设 置 为 1 小 时 以 后 。59 分 钟 过 去 了 ， 但 就 在 它 即将 
过 期 前 的 1 分 钟 ， 调 用 了 route 程 序 来 打印 这 个 路 由 的 度量 数据 。 以 下 是 执行 Tzoute 程 序 时 需 
要 调用 的 内 核 函 数 : route output 调 用 rtallocl,， rtallocl 又 调用 
in_matroute(Internet 专 有 的 国 数 znh_ matchaddr), in matroute 国 数 加 大 了 参考 计数 
值 ， 即 从 0 到 1。 当 这 些 操作 全 部 完成 后 ， 假 设 参 考 值 又 从 1 回 和 到 0，rtfree 就 调用 
in_clsroute， 而 in_clsroute 将 过 期 时 间 重 置 为 1 小 时 以 后 。 


6.12 小 结 


在 TITCP 中 ， 我 们 为 rt_metrics 结 构 增 加 了 16 字 节 。 其 中 的 10 个 字 节 被 TITCP 用 作 TAO 
缓存 : 
“taoco_cc， 从 对 等 端 收 到 的 最 后 一 个 有 效 SYN 中 的 CC 值 ; 
。tao_ccsent， 发 给 对 等 端的 最 后 一 个 CC 值 ， 
*tao mssopt, 从 对 等 端 收 到 的 最 后 一 个 MSS 值 。 
在 radix_node_head 结 构 中 新 增加 了 一 个 函数 指针 rnh_close 字 段 ， 当 路 由 的 参考 
计数 值 达到 0 时 ， 就 要 调用 该 指针 所 指 的 函数 (如 果 有 定义 )。 
专门 为 Internet 协 议 增加 了 四 个 新 的 函数 : 
1) in inithead 用 于 初始 化 Internet 的 radix_node head 结构 ， 设 置 我 们 现在 讲述 的 
这 四 个 函数 指针 。 
2) in_addroute 在 IP 路 由 表 中 增加 新 路 由 时 调用 。 它 为 每 一 个 非 主 机 路 由 和 非 多 播 地 址 
路 由 的 IP 路 由 打开 克隆 标志 。 
3) in_matroute 在 每 次 查找 到 IP 路 由 时 调用 。 如 果 路 由 被 in_clsroute 函 数 设 置 为 超 
时 ， 就 要 把 它 的 过 期 时 间 重 置 为 0， 因 为 这 个 路 由 又 有 用 了 。 
4) in_clsroute 在 IP 路 由 的 最 后 一 个 参考 也 被 关闭 时 调用 。 它 将 路 由 的 过 期 时 间 设 置 为 
1 小 时 以 后 。 我 们 也 看 到 了 ， 如 果 路 由 表 过 大 时 ， 过 期 时 间 要 缩短 。 


第 7 章 T/TCP 实 现 : 协议 控制 块 


7.1 概述 


对 于 T/TCP 而 言 ， 协 议 控 制 块 PCB 函 数 ( 卷 2 的 第 22 章 ) 需 要 做 一 些小 的 修改 。 函 数 
in_pcbconnect( 卷 2 的 22.2 节 ) 现 在 要 分 为 两 部 分 : 一 个 名 为 in_pcbladdr 的 内 部 例 程 ， 
用 于 分 配 本 地 接口 地 址 ， 另 一 个 为 in_pcbconnect 国 数 ， 完 成 原来 的 功能 ( 它 要 调用 
in pcbladdr), 

我 们 把 这 两 部 分 功能 分 开 的 原因 是 因为 ， 当 同一 连接 ( 即 相同 的 插口 对 ) 的 前 一 次 操作 还 处 
在 TIME_WAIT 状 态 时 ，T/TCP 就 可 以 发 布下 一 个 connect 了。 如 果 先 前 一 次 连接 的 持续 时 间 
少 于 MSL， 并 且 两 端 都 使 用 了 CC 选项 ， 那 么 处 于 TIME_WAIT 状 态 的 连接 就 关闭 ， 人 允许 建立 
新 的 连接 。 如 果 我 们 没有 做 上 述 修改 ， 并 且 T/TCP 使 用 了 未 修改 的 jn_pcbconnect， 当 允 
到 现 有 PCB 处 于 TIME_WAIT 状 态 时 ， 应 用 程序 就 会 收 到 “地 址 已 被 使 用 ”这 样 的 出 错 消 息 。 

不 仅 在 发 布 TCP 的 connect 时 要 调用 in_pcbconnect， 并且 在 新 的 TCP 连 接 请 求 到 达 
时 、 发 布 UDP connect 以 及 发 布 UDP sendto 时 都 要 调用 该 函数 。 图 7-1 总 结 了 Net/3 中 修改 
之 前 的 调用 关系 。 

UDP TCP 输 入 


in pcbconnect 


图 7-1 Net/3 中 调用 in_pcbconnect 的 小 结 


在 TCP 输 入 和 UDP 中 ， 对 in _pcbconnect 的 调用 是 一 样 的 ， 但 是 处 理 TCP connect 
(PRU_CONNECT 请 求 ) 时 就 要 调用 一 个 新 的 函数 Lcp_connect( 图 12-2 和 图 12-3)， 该 函数 又 调 
用 新 的 函数 in_pcbladdr。 另 外 ， 当 T/TCP 客 户 采 用 sendto 或 sendmsg 隐 式 打 开 连 接 时 ， 
所 产生 的 PRU_SEND 或 PRU_SEND_EOF 请 求 也 将 调用 tcp_connect。 我 们 在 图 7-2 中 给 出 了 
这 种 新 的 调用 方案 。 


UDP TCP 输 入 


in_pcbconnect 






PRU_CONNECT 











PRU_CONNECT 
PRU_SEND 
PRU_SEND_EOF 


in_pcbladdr 


图 7-2 in pcbconnect 和 in pcbladdr 的 新 安排 
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7.2 in pcbladdr 函 数 


in_pcbladdr 函 数 的 第 一 部 分 如 图 7-3 所 示 。 这 一 部 分 仅仅 给 出 了 变量 定义 和 头 两 行 代 
码 ， 它 与 卷 2 第 590 页 的 第 138~139 行 完全 相同 。 


136 int 

137 in pcbladdr(inp, nam, plocal sin) 

138 struct inpcb *inp; 

139 struct mbuf *nam; 

140 struct sockaddr in **plocal sin; 

141 ( 

142 struct in ifaddr *ia; 

143 struct sockaddr in *ifaddr; 

144 struct sockaddr in *sin - mtod(nam, struct sockaddr in *); 





in pcb.c 


145 if (nam-»m len != sizeof(*sin)) 
146 return (EINVAL); . 
in pcb.c 


图 7-3 in _pcbladdr 函 数 : 第 一 部 分 
136-140 ， 头 两 个 变量 与 in_pcbconnect 中 是 一 样 的 ， 第 三 个 变量 是 一 个 指针 的 指针 ， 用 
于 返回 本 地 地 址 。 
这 个 函数 的 其 余部 分 与 卷 2 中 图 22-25 和 图 22-26 完 全 相同 ， 与 该 卷 图 22-27 的 大 部 分 也 相同 。 卷 
2 的 图 22-27 中 最 后 两 行 ， 即 第 593 页 ， 则 用 图 7-4 中 的 代码 代替 。 


in pcb.c 

232 p" 
233 * Don't call in pcblookup here; return interface in 
234 * plocal, sin and exit to caller, who will do the lookup. 
235 *J 
236 *plocal sin = &ia-»ia addr; 
237 ) 
238 return (0); 
239 . 

in pcb.c 


图 7-4 in_pcbladdr 函 数 : 最 后 一 部 分 


232-236 如 果 调 用 进程 给 定 了 通配符 作为 本 地 地 址 ， 指 向 sockaddr_in 结 构 的 一 个 指针 
就 会 通过 第 三 个 变量 返回 。 

基本 上 ，in_pcbladdr 所 做 的 全 部 操作 是 进行 差错 检查 ， 目 标 地 址 为 0.0.0.0 或 
255.255.255.255 这 些 特殊 情况 的 处 理 ， 接 着 进行 本 地 IP 地 址 的 分 配 (如 果 调 用 进程 还 没有 分 配 
IP 地 址 )。connect 所 需要 的 其 他 处 理 操作 都 在 ijn_pcbconnect 中 实现 。 


7.3 in pcbconnect 函 数 


图 7-5 中 给 出 了 in_pcbconnect 函 数 。 这 个 函数 调用 了 上 一 节 所 介绍 的 jn_pcbladdr， 
然后 接 下 来 就 是 卷 2 中 图 22-28 中 的 代码 。 

1. 分 配 本 地 地 址 
255-259 如 果 调 用 进程 还 未 将 一 个 IP 地 址 绑 定 到 其 插口 ， 则 调用 in_pcbladdr 函 数 计算 
出 本 地 IP 地 址 ， 然 后 通过 ifaddr 指 针 返 回 。 

2. 验证 插口 对 的 唯一 性 
260-266 in_pcblookup 验 证 插口 对 是 唯一 的 。 在 TCP 客 户 端 调用 connect( 当 客户 端 尚 
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未 将 一 个 本 地 端口 或 本 地 地 址 绑 定 到 一 个 插口 时 ) 的 一 般 情 况 下 ， 本 地 端口 号 为 0， 
in_pcblookup 就 总 是 返回 0， 因 为 端口 0 是 不 会 与 任何 一 个 现 有 的 PCB 匹 配 上 的 。 

3. 如 果 还 没有 绑 定 ， 则 绑 定 本 地 地 址 和 本 地 端口 
如 果 还 没有 本 地 地 址 和 本 地 端口 绑 定 到 插口 上 ，in_pcbbind 要 对 这 两 者 都 进行 
分 配 。 如 果 只 是 还 没有 本 地 地 址 绑 定 到 插口 ， 本 地 端口 号 已 经 为 非 零 ， 则 in_Pcbladadr 返 
回 的 本 地 地 址 记录 在 PCB 中 。 在 本 地 端口 号 还 是 0 时 是 不 可 能 将 一 个 本 地 地 址 绑 定 上 去 的 ， 因 
为 调用 in_pcbbind 函 数 绑 定 本 地 地 址 的 同时 会 给 插口 分 配 一 个 临时 使 用 的 端口 号 。 
272-273 ”外 部 地 址 和 外 部 端口 (in_pcbconnect 的 变量 ) 记 录 在 PCB 中 。 


267-271 


247 int 


in_pcb.c 


248 in_pcbconnect (inp, nam) 
249 struct inpcb *inp; 
250 struct mbuf *nam; 


251 { 
252 
253 
254 


255 
256 
257 
258 
259 


260 
261 
262 
263 
264 
265 
266 
267 
268 
269 
270 
271 
272 
213 
274 
275 ) 


7.4 小 结 


struct sockaddr in *ifaddr; 
struct sockaddr in *sin = mtod(nam, struct sockaddr in *); 


int error; 


p^ 


* Call inner function to assign local interface address. 


"f 


if (error - in pcbladdr(inp, nam, &ifaddr)) 
return (error); 


if (in pcblookup(inp-»inp head, 


sin-»sin, addr, 
sin-»sin port, 


inp-»inp laddr.s addr ? inp-»inp laddr : ifaddr-»sin addr, 


inp-»inp lport, 
0)) 


return (EADDRINUSE); 
if (inp-»inp laddr.s addr == INADDR ANY) ( 
if (inp-»inp lport -- 0) 
(void) in pcbbind(inp, (struct mbuf *) 0); 
inp-»inp laddr = ifaddr-»sin addr; 


} 

inp-»inp faddr 
inp-»inp fport 
return (0); 


sin-»sin addr; 
sin-»sin port; 


in pcb.c 
图 7-5 in pcbconnecti&7& 


T/TCP 所 做 的 修改 是 从 in_pcbconnect 函 数 中 移 去 计算 本 地 地 址 的 所 有 代码 ， 创 建 一 个 
名 为 jn_pcbladdr 的 新 函数 来 完成 这 项 任务 。in_pcbconnect 调 用 该 函数 ， 然 后 完成 正常 
的 连接 处 理 过 程 。 这 将 使 处 理 T/TCP 客 户 连 接 请 求 (或 者 用 connect 显 式 建 连 ， 或 者 用 
sendto 隐 式 地 建 连 ) 时 可 以 调用 in_pcbladadr 来 计算 本 地 地 址 。T/TCP 客 户 的 端 处 理 则 是 复 
制 了 图 7-5 中 的 处 理 步 又 ， 但 即使 前 一 次 连接 尚 处 于 TIME_WAIT 状 态 ，T/TCP 也 还 是 允许 处 理 
同一 连接 的 后 续 请 求 。 常 规 的 TCP 是 不 允许 这 种 情况 发 生 的 ; 这 时 图 7-5 的 in_pcbconnect 
将 返回 EADDRINUSE。 


第 8 草 T/TCP 实 现 : TCP 概 要 


8.1 概述 


本 章 内 容 覆 盖 了 T/TCP 对 TCP 数 据 结构 和 函数 所 做 的 全 局 性 修改 。 增 加 了 两 个 全 局 变量 : 
tcp_ccgen， 即 爹 局 CC 计数 器 ,以 及 tcp_do_rfcl644， 这 是 一 个 标志 变量 ,说 明 是 否 选 
用 CC 选项 。TCP 的 协议 交换 记录 项 也 做 了 修改 ， 以 支持 隐 式 的 打开 和 关闭 。 另 外 还 在 TCP 控 
制 块 中 增加 了 4 个 变量 。 

对 tcp_slowtimo 国 数 也 做 了 简单 修改 ， 以 便 能 够 测量 每 个 连接 的 持续 时 间 。 给 定 一 个 
连接 的 持续 时 间 ， 如 果 持 续 时 间 短 于 MSL， 则 如 4.4 节 所 述 ，T/TCP 将 截断 TIME_WAIT 状 态 的 
保持 时 间 。 


8.2 代码 介绍 
T/TCP 没 有 增加 新 的 源 文件 ， 但 是 需要 一 些 新 的 变量 。 
全 局 变量 


图 8-1 中 给 出 了 T/TCP 新 增加 的 全 局 变量 ， 在 各 个 TCP 函 数 中 都 会 用 到 。 





tcp ccgen tcp cc 要 发 送 的 下 一 个 CC 值 
tcp do rfc1644 | int 如 果 为 真 (默认 )， 发 送 CC 或 CCnew 选 项 


图 8-1 T/TCP 新 增 的 全 局 变量 


在 第 3 章 我 们 给 出 了 一 些 有 关 tcp_ccgen 变 量 的 例子 。 在 6.5 市 中 也 提 到 了 tcp_cc 的 数 
据 类 型 是 用 typedef 定 义 的 ， 是 无 符号 长 整数 。tcp_cc 变 量 值 为 0， 表 示 它 尚未 定义 。 
tcp_ccgen 变 量 总 是 这 样 存 取 的 : 

tp-»cc send = CC INC(tcp ccgen); 
其 中 cc_send 是 TCP 控 制 块 的 新 字段 ( 见 后 面 的 图 8-3)。 宏 CC_INC 是 在 <netinet/tcp seq.h> 
中 定义 的 : 

#define CC INC(c) (++(c) == 0 ? ++(c) : (c)) 

由 于 这 个 值 是 在 使 用 之 前 增加 的 ， 因 此 ，tcp_ccgen 要 初始 化 为 0， 且 它 的 第 一 个 有 用 
值 为 1。 

为 了 按照 模 运 算 比较 CC 的 值 ， 定 义 了 四 个 宏 : CC LT, CC LEQ, CC GTfücC GEQ, 
这 四 个 宏 与 卷 2 第 649 页 定义 的 四 个 SEQ_xx 宏 完全 一 样 。 

变量 tcp_do_rfcl644 与 卷 2 中 介绍 的 变量 tcp_do_rfc1l323 相 似 。 如 果 tcp_do_ 
rfcl1644 为 0，TCP 不 会 向 对 方 发 送 CC 或 CCnew 选 项 。 
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统计 量 
T/TCP 新 增 了 5 个 计数 器 ， 如 图 8-2 所 示 。 它 们 加 在 tcpstat 结 构 中 ， 卷 2 第 638 页 对 这 个 


tcpstat^rE 


tcps taook TAO 正确 时 接收 到 SYN 
tcps taofail 接收 到 带 有 CC 选项 的 SYN， 但 TAO 测试 失败 


结构 有 介绍 。 


tcps badccecho | CCecho 选 项 错误 的 SYN/ACK 报 文 段 
tcps impliedack | 隐 含 着 对 前 一 次 连接 的 ACK 的 新 SYN 
tcps_ccdrop 因为 无 效 的 CC 选项 而 丢弃 的 报 文 段 


图 8-2 在 tcpstat 结 构 中 新 增 的 T/TCP 统 计量 
程序 netstat 必 须 经 修改 才能 打印 这 些 新 字段 的 值 。 
8.3 TCP 的 protosw 结 构 





我 们 在 第 5 章 提 到 过 ，TCP 的 protosw 记 录 项 inetsw[2]( 卷 2 第 641 页 ) 的 pr_flags 字 段 
在 T/TCP 中 做 了 修改 。 新 的 插口 层 标志 PR_IMPLOPCL 必 须 包 括 在 内 ， 已 有 的 标志 
PR_CONNREQUIRED 和 PR_WANTRCVD 也 必须 包含 在 内 。 在 sosend 中 ， 如 果 调 用 进程 给 出 了 
一 个 目标 地 址 ， 这 个 新 的 标志 允许 对 一 个 未 建 连接 的 插口 调用 sendto， 并 且 如 果 指 定 了 
MSG_EOF 标 志 ， 它 所 起 的 作用 是 发 出 一 个 PRU_SEND_EOF 请 求 而 不 是 PRU_SEND 请 求 。 

对 protosw 记 录 项 所 做 的 修改 中 有 一 个 不 是 T/TCP 所 需 的 ， 即 定义 了 tcp_sysct1 函 数 
作为 pr_sysct1 字 段 。 这 就 允许 系统 管理 员 用 前 缀 为 net . inet .tcp 的 sysct1 程 序 来 修改 
能 够 控制 TCP 操 作 的 一 些 变量 值 ( 卷 2 介绍 的 Net/3 代 码 仅仅 支持 sysct1 程 序 通过 ip_sysctl、 
icmp_sysct1 和 udqp_sysct1 国 数 对 卫 、ICMP 和 UDP 的 一 些 变量 进行 控制 )。 在 图 12-6 中 给 
üiftcp sysctlif A, 


8.4 TCP 控 制 块 


TCP 控 制 块 中 新 增 了 四 个 变量 ， 卷 2 第 643~644 页 说 明了 TCP 控 制 块 的 Lcpcb 结 构 。 我 们 
在 图 8-3 中 仅 给 出 了 新 的 字段 ， 并 非 整 个 结构 。 


t duration 以 500ms 为 单位 的 连接 持续 时 间 


t maxopd MSS 加 上 通常 选项 的 长 度 
cc send 发 送 给 对 等 端的 CC 值 
cc recv 从 对 等 端 中 接收 到 的 CC 值 


图 8-3 T/TCP 在 tcpcb 结 构 中 新 增 的 字段 


t_duration 用 于 确定 T/TCP 是 否 可 以 截断 TIME_WAIT 状 态 的 保持 时 间 , 见 4.4 节 的 讨论 。 
当 控 制 块 创建 时 它 的 值 为 0， 由 tcp_slowtimo(8.6 节 ) 每 过 500 ms 加 1。 

t_maxopd 是 为 了 代码 的 方便 而 设 的 。 它 的 取 值 是 已 有 t_maxseg 字 段 的 值 加 上 TCP 选 项 
通常 所 占用 的 字 节 数 。t_maxseg 是 每 个 报 文 段 中 的 数据 字 节 数 。 例 如 ， 在 MTU 为 1500 字 节 
的 一 个 以 太 网 上 ， 如 果 时 间 戳 和 TATCP 都 用 上 了 ，t_maxopd 将 为 1460，t_maxseg 则 为 1440。 
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t_maxopd 和 t_maxseg 都 是 在 tcp_mssrcvd 函 数 中 计算 并 记录 的 。 

最 后 两 个 变量 来 自 RFC 1644， 在 第 2 章 给 出 了 有 关 这 三 个 变量 的 例子 。 如 果 一 个 连接 的 两 
端 主机 都 用 了 CC 选项 ，cc_recv 的 值 将 为 非 0。 

在 TCP 控 制 块 的 kt_flags 字 段 中 新 定义 了 6 个 标志 ， 如 图 8-4 所 示 ， 是 对 卷 2 的 图 24-14 中 
的 9 个 标志 的 补充 。 






TF SENDSYN 发 送 SYN( 隐 藏 的 半 同 步 连 接 状 态 标志 ) 
TF SENDFIN 发 送 FIN( 隐 藏 的 状态 标志 ) 

TF SENDCCNEW | 主动 打开 时 发 送 CCnew 选 项 而 不 是 CC 选项 
TF NOPUSH 不 发 送 报 文 段 ， 只 清空 发 送 缓存 


TF RCVD CC 当 对 端 在 SYN 中 发 送 了 CC 选项 时 设置 该 标志 
TF_REQ CC 










已 经 /将 在 SYN 中 申请 CC 选项 
图 8-4 T/TCP 新 增 的 t_flags 及 其 取 值 
不 要 把 T/TCP 中 的 两 个 标志 TF_SENDFIN 与 TF_SENTFIN 混 淆 ， 前 者 表示 TCP 需 要 发 送 
FIN， 而 后 者 表示 已 经 发 出 FIN。 
TF_SENDSYN 和 TF_SENDFIN 这 两 个 名 字源 于 Bob Braden 的 “T/TCP 的 实现 ”。 
FreeBSD 实 现 中 将 这 两 个 名 字 改 为 TF _NEEDSYN 和 TF NEEDFIN。 我 们 选用 了 前 面 
的 名 字 ， 因 为 已 经 用 新 的 标志 来 表示 是 否 需要 发 送 控制 标志 ， 如 果 选 用 后 面 的 名 字 
就 会 误解 为 需要 接收 SYN 或 FIN。 然 而 请 注意 ， 因 为 选用 了 这 样 的 名 字 ，T/TCP 的 
TF_SENDFIN 标 志和 已 有 的 TF_SENTFIN 标 志 ( 表 明 TCP 已 经 发 出 了 FIN) 仅 有 一 个 字 
符 之 差 。 
我 们 将 在 下 一 章 的 图 9-3 和 图 9-7 中 分 别 介 绍 TF_NOPUSH 和 TF_SENDCCNEW 标 志 。 


8.5 tcp_init 函 数 





所 有 的 TITCP 变 量 都 不 需要 显 式 的 初始 化 ， 因 此 卷 2 中 介绍 的 tcp_init 函 数 没有 变化 。 
全 局 变量 tcp_ccgen 是 没有 初始 化 的 外 部 变量 ， 按 照 C 语 言 的 规则 ， 它 的 默认 值 为 0。 这 样 做 
不 会 出 错 ， 因 为 在 8.2 节 中 定义 的 宏 CC_INC 是 先 对 该 变量 加 1， 然 后 再 用 ， 因 此 在 重启 动 后 ， 
tcp_ccgen 的 第 一 个 有 用 值 是 1。 

T/TCP 也 要 求 在 重启 动 时 将 TAO 缓 存 全 部 清空 ， 由 于 在 重启 动 时 要 初始 化 IP 路 由 表 ， 所 以 
TAO 缓 存 不 需要 专门 处 理 。 在 路 由 表 中 每 增加 一 个 新 的 rtentry 结 构 ，rtrequest 要 将 该 结 
构 初 始 化 为 0( 卷 2 第 489 页 )。 这 就 意味 着 zmxp_tao 结 构 中 3 个 TAO 变量 的 默认 值 都 为 0( 图 6-3)。 
为 新 主机 创建 新 的 TAO 记 录 项 时 ，T/TCP 需 要 将 tao_cc 的 值 初始 化 为 0。 


8.6 tcp slowtimo 函 数 


两 个 TCP 定 时 函数 中 有 一 个 增加 了 一 行 : 每 次 处 理 500 ms 定时 器 时 ， 要 对 每 个 TCP 控 制 块 
的 ft_auration 字 段 执行 加 1 操作 ， 卷 2 第 666 页 给 出 了 tcp_s1owtimo 国 数 。 下 面 这 一 行 


tp-»t duration-c*; 
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加 在 这 个 图 的 第 94~95 行 之 间 。 这 个 变量 的 用 途 是 测量 每 个 连接 的 长 度 ， 以 500ms 为 单位 。 如 
果 连 接 持续 时 间 短 于 MSL，TIME_WAIT 状 态 的 保持 时 间 就 可 以 截断 ， 在 4.4 节 中 已 经 讨论 过 。 
与 这 项 优化 有 关 的 工作 是 在 <netinet/timer.h> 头 文件 中 定义 了 下 面 这 个 常量 : 

#define TCPTV TWTRUNC 8 /* RTO factor to truncate TIME WAIT */ 
我 们 在 图 11-17 和 图 11-19 中 将 可 以 看 到 ， 如 果 T/TCP 连 接 是 主动 关闭 ， 并 且 t_duration 的 值 
小 于 TCPTV_MSL(60 个 500 ms， 即 30 秒 )， 那 么 TIME_WAIT 状 态 的 保持 时 间 就 是 当前 重 传 超 
时 (RTO) 乘 以 TCPTV_TWTRUNC。 在 局 域 网 环境 中 ，RTO 通 常 为 3 个 500ms， 即 1.5 秒 ， 这 将 使 
TIME_WAIT 状 态 的 保持 时 间 缩 短 到 12 秒 。 


8.7 小 结 
T/TCP 新 增 了 两 个 全 局 变量 (tcp_ccgen 和 tcp_ do rfcl 644)、4 个 TCP 控 制 块 字 段 和 5 
个 TCP 统 计 结 构 计 数 器 。 


tcp_slowtimo 函 数 也 做 了 修改 ， 以 500ms 为 时 间 单 位 计量 每 个 TCP 连 接 的 持续 时 间 。 
这 个 持续 时 间 决 定 了 T/TCP 能 否 在 主动 关闭 时 截断 TIME_WAIT 状 态 的 保持 时 间 。 


第 9 章 T/TCP 实 现 : TCP 输 出 


9.1 概述 


本 章 介 绍 为 了 支持 T/TCP 而 对 tcp_output 函 数 所 做 的 修改 。 在 TCP 中 有 许多 程序 段 都 要 
调用 该 函数 来 决定 是 否 应 该 发 送 一 个 报 文 段 ， 并 且 如 果 必 要 就 发 送 一 个 。 在 T/TCP 中 做 了 以 
下 修改 : 

* 两 个 隐藏 的 状态 标志 可 以 打开 TH_SYN 和 TH_FIN 标 志 。 

。T/TCP 可 以 在 SYN_SENT 状 态 下 发 出 多 个 报 文 段 ， 但 其 前 提 是 确 知 对 等 端 也 支持 T/TCP。 

。 发 送 程序 糊涂 窗口 避免 机 制 必须 考虑 到 新 的 TE_NOPUSH 标 志 ， 这 个 标志 我 们 在 3.6 节 中 

讨论 过 。 

。 可 以 发 出 新 的 TTCP 选 项 (CC、CCnew 和 CCecho)。 


9.2 tcp output ži 


新 的 自动 变量 
在 tcp_output 中 说 明了 两 个 新 的 自动 变量 : 


struct rmxp tao *taop; 
struct rmxp tao tao noncached; 


其 中 第 一 个 变量 是 一 个 指针 ， 指 向 相应 对 等 端的 TAO 缓存 记录 项 。 如 果 TAO 缓 存 记录 项 不 存 
在 (这 种 情况 不 应 该 发 生 )， 则 taop 指 向 tao_noncached， 并 且 将 这 个 结构 初始 化 为 0( 这 样 
它 的 tao_cc 值 就 是 未 定义 的 )。 


增加 隐藏 的 状态 标志 


在 tcp_output 的 开头 ,要 从 tcp_outflags 向 量 中 读 取 说 明 当 前 连接 状态 的 TCP 标 志 。 
图 2-7 给 出 了 每 个 状态 的 相关 标志 。 图 9-1 中 的 代码 用 于 在 相应 的 隐藏 状态 标志 处 于 开 状态 时 ， 
对 TH_FIN 标 志和 TH_SYN 标 志 执行 逻辑 或 。 


i tcp_output.c 
72 sendalot = 0; 

73 off - tp-»snd nxt - tp-»snd una; 

74 win - min(tp-»snd wnd, tp-»snd cwnd); 

75 flags = tcp_outflags [tp->t_state]; 

76 s 

77 * Modify standard flags, adding SYN or FIN if requested by the 

78 * hidden state flags. 

79 + 


图 9-1 tcp output: 增加 隐藏 状态 标志 


78 第 一 部 分 TCP FER 


80 if (tp->t_flags & TF SENDFIN) 





81 flags |= TH FIN; 
82 if (tp-»t flags & TF SENDSYN) 
83 flags |= TH SYN; 
tcp output.c 
图 9-1 (23) 
这 些 代码 位 于 卷 2 第 681~682 页 。 


在 SYN_SENT 状 态 不 要 重 传 SYN 


图 9-2 中 的 程序 读 取 对 等 端的 TAO 缓存 内 容 ， 并 且 查 看 是 否 已 经 发 出 了 SYN。 这 段 代码 位 
于 卷 2 中 图 26-3 的 开头 。 

1. 读 取 TAO 缓存 记录 项 
117-119 读 取 对 等 端的 TAO 缓存 内 容 ， 如 果 不 存 在 ， 则 改 用 自动 变量 tao_noncached， 
其 初始 值 置 为 0。 


如 果 使 用 了 全 0 的 记录 项 ， 它 的 值 永远 不 变 。 这 样 ，taco_noncached 结 构 就 可 
以 静态 分 配 并 初始 化 为 0， 而 不 必用 bzero 将 其 设置 为 0。 


2. 检查 客户 请 求 是 否 超过 MSS 
121-133 如果 状 态 标 志 表 明 需 要 发 送 SYN， 并 且 如 果 已 经 发 出 SYN， 那 么 TH_SYN 标 志高 
要 关闭 。 当 一 个 应 用 程序 用 T/TCP 向 对 等 端 发 送 多 们 MSS 数 量 的 数据 时 可 能 发 生 这 种 情况 ( 见 
3.6 节 )。 如 果 对 等 端 支持 TATCP 协 议 ， 这 时 可 以 分 多 个 报 文 段 发 送 ， 但 只 有 第 一 个 报 文 段 应 该 
设置 SYN 标 志 。 如 果 我 们 不 能 确定 对 等 端 是 否 支持 TITCP(tao_ccsent 值 为 0)， 这 时 我 们 必 
须 在 三 次 担 手 过 程 完 成 以 后 才 可 以 发 送 多 个 报 文 段 。 


tcp output.c 
116 len - min(so-»so snd.sb cc, win) - off; 
117 if ((taop = tcp gettaocache(tp-»t inpcb)) -- NULL) ( 
118 taop - &tao noncached; 
119 bzero(taop, sizeof(*taop)); 
120 ) 
121: y% 
122 * Turn off SYN bit if it has already been sent. 
123 * Also, if the segment contains data, and if in the SYN-SENT state, 
124 * and if we don't know that foreign host supports TAO, suppress 
125 * sending segment. 
126 *4 
127 if ((flags & TH SYN) && SEQ GT(tp-»snd nxt, tp-»snd una)) ( 
128 flags &- "TH SYN; 
129 off--, len**; 
130 if (len > 0 && tp-»t state == TCPS SYN SENT && 
131 taop-»tao ccsent == 0) 
132 return (0); 
133 ) 
134 if (len < 0) ( 
tcp output.c 
图 9-2 tcp output: 在 SYN_SENT 状 态 不 重 传 SYN 
发 送 器 的 糊涂 窗口 避免 机 制 


发 送 器 的 糊涂 窗口 避免 机 制 有 两 处 做 了 修改 ( 卷 2 第 715 页 )， 如 图 9-3 所 示 。 
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168  , if (len) ( Mpeg 
169 if (len == tp-»t maxseg) 

170 goto send; 

171 if ((idle || tp-»t flags & TF NODELAY) && 

172 (tp-»t flags & TF NOPUSH) -- 0 && 

173 len + off >= so-»so snd.sb cc) 

174 goto send; 

175 if (tp->t_force) 

176 goto send; 

EIT if (len >= tp-»max sndwnd / 2 && tp-»max sndwnd > 0) 
178 goto send; 

179 if (SEQ LT(tp-»snd nxt, tp-»snd max)) 

180 goto send; 

181 ) 


tcp. output.c 
图 9-3 tcp output: 糊涂 窗口 避免 机 制 中 ， 确 定 是 否 发 送 报 文 段 


1. 发 送 最 大 报 文 段 
169-170 如 果 人 允许， 就 发 出 最 大 报 文 段 。 

2. 允许 应 用 程序 关闭 隐 式 推送 
171-174 BSD 实现 中 是 这 样 处 理 的 : 如 果 不 是 正在 等 待 对 等 端的 ACK(idle 值 为 真 )， 或 者 
如 果 Nagle 算 法 禁用 (TF_NODELAY 值 为 真 );， 并 且 TCP 下 在 清空 发 送 缓存 ， 那 么 它 总 是 发 出 一 
个 报 文 段 。 有 时 称 这 种 方式 为 隐 式 推送 ， 因 为 除非 受 Nagle 算 法 所 限 ， 否 则 应 用 程序 每 写 一 次 
都 会 导致 一 个 报 文 段 发 送出 去 。T/TCP 提 供 了 一 个 新 的 插口 选项 , 可 以 使 BSD 的 隐 式 推送 失效 ， 
这 个 选项 就 是 TCP_NOPUSH， 最 后 变 成 了 TF_NOPUSH 标 志 。 我 们 在 3.6 节 研究 过 有 关 这 个 标 
志 的 一 个 例子 。 在 这 段 代 码 中 ,我 们 看 到 了 只 有 以 下 三 个 条 件 同时 为 真 ， 报 文 段 才能 发 出 : 

1) 并 不 在 等 待 ACK(idle 值 为 真 )， 或 者 Nagle 算 法 已 经 禁用 (TF_NODELAY 值 为 真 ); 

2) TCP_NOPUSH 插 口 选 项 没有 使 用 (默认 值 )，; 

3) TCP 正 在 清空 发 送 缓存 ( 即 所 有 未 发 的 数据 可 以 在 一 个 报 文 段 中 发 出 )。 

3. 检查 接收 窗口 是 否 打开 了 至 少 一 半 
177-178 在 常规 的 TCP 中 ， 整 个 这 部 分 代码 段 不 会 因为 收 到 第 一 个 SYN 而 执行 ， 因 为 这 时 
1en 应 该 是 0。 但 是 在 T/TCP 中 ， 很 有 可 能 在 接收 到 另 一 端 发 来 的 SYN 之 前 就 发 送 数据 。 这 就 
意味 着 需要 根据 max_sndwnd 是 否 大 于 0 来 检测 接收 窗口 是 否 已 经 打开 了 一 半 。 这 个 变量 是 对 
等 端 通告 的 最 大 窗口 ， 但 是 在 从 对 等 端 收 到 通告 前 ， 它 一 直 是 0( 即 一 直到 收 到 对 等 端的 SYN)。 

4. 重 传 定时 器 到 时 发 送 
179-180 重 传 定时 器 到 时 间 后 ，snqd_nxt 小 于 snd_max。 


有 RST 或 SYN 标 志 时 强制 发 送 报 文 段 


卷 2 第 688 页 的 179~180 行 代码 在 SYN 标 志 或 RST 标 志 打 开 时 总 是 要 发 送 一 个 报 文 段 。 这 两 
行 要 用 图 9-4 中 的 代码 替代 。 


tcp_output.c 


207 if ((flags & TH_RST) || 
208 ( (flags & TH SYN) && (tp->t_flags & TF. SENDSYN) == 0)) 
209 goto send; 





tcp output.c 
图 9-4 tcp output: 检查 RST 和 SYN 标 志 ， 确 定 是 否 发 送 报 文 段 
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207-209 如 果 RST 标 志 打 开 了 ， 就 总 要 发 出 一 个 报 文 段 。 如 果 SYN 标 志 打 开 了 ， 则 只 有 在 
相应 的 隐藏 状 态 标 志 关 闭 时 才 会 发 出 报 文 段 。 加 上 这 项 限制 的 理由 可 以 看 图 2-7。 在 最 后 5 个 
服务 器 加 星 状 态 ( 半 同步 状态 ) 下 ，TF_SENDSYN 标 志 是 打开 的 ， 这 就 会 使 图 9-1 中 的 SYN 标 志 
被 打开 。 在 tcp_output 中 执行 这 项 测试 的 目的 是 只 在 SYN_SENT、SYN_RCVD、 SYN_ 
SENT* 和 SYN_RCVD* 状 态 下 才 发 送 报 文 段 。 


发 送 MSS 选 项 


这 一 小 段 代码 ( 卷 2 第 697 页 ) 有 一 个 小 小 的 变化 。Net/3 中 的 函数 tcp_mss( 有 两 个 参量 ) 改 为 
tcp_msssend( 仅 仅 以 tp 为 参量 )。 这 是 因为 我 们 需要 把 计算 MSS 并 发 送 与 处 理 收 到 的 MSS 选 
项 区 分 开 来 。Net/3 中 的 tcp_mss 函 数 同时 完成 这 两 项 处 理 ， 在 T/TCP 中 ， 我 们 则 用 两 个 不 同 
的 函数 来 完成 ， 它 们 是 tcp_msssend 和 tcp_mssrcvd， 我 们 将 在 下 一 章 讨论 这 两 个 函数 。 


是 否 发 送 时 间 截 选项 


卷 2 第 698 页 ， 如 果 以 下 三 个 条 件 都 成 立 ， 就 发 出 时 间 惟 选项: (1)TCP 配 置 中 要 求 使 用 时 
间 玲 选项 ，(2) 正 在 构造 的 报 文 段 不 包括 RST 标 志 ; 以 及 (3) 要 么 这 是 一 次 主动 打开 或 者 TCP 已 
经 从 另 一 端 接收 到 了 一 个 时 间 戳 (TF_RCVD_TSTMP)。 对 主动 打开 的 测试 只 要 查看 SYN 标 志 是 
否 打 开 以 及 ACK 标 志 是 否 关 闭 即 可 。 完 成 这 三 项 测试 的 T/TCP 代 码 如 图 9-5 所 示 。 


tcp_output.c 


283 a" 

284 * Send a timestamp and echo-reply if this is a SYN and our side 
285 * wants to use timestamps (TF_REQ_TSTMP is set) or both our side 
286 * and our peer have sent timestamps in our SYN's. 

287 Ey 

288 if ((tp->t_flags & (TF_REQ_TSTMP | TF NOOPT)) == TF REQ TSTMP && 
289 (flags & TH RST) == 0 && 

290 ( (flags & TH ACK) == 0 || 

291 (tp-»t flags & TF RCVD TSTMP))) { 


tcp output.c 
图 9-5 tcp output; 是 否 发 送 时 间 愉 选项 ? 


283-291 因为 我 们 希望 从 客户 端 到 服务 器 方向 上 发 送 的 所 有 第 一 个 报 文 段 都 携带 时 间 惟 选 
项 (在 多 报 文 段 请 求 的 情况 下 ， 如 图 3-9 所 示 )， 而 不 仅仅 只 是 含有 SYN 的 第 一 个 报 文 段 ， 所 以 
在 T/TCP 中 第 三 项 测试 的 前 一 半 有 所 改变 。 对 所 有 初始 报 文 段 的 新 测试 项 都 是 在 没有 ACK 标 
志 的 情况 下 进行 的 。 


发 送 T/TCP 的 CC 选项 


是 否 发 送 三 个 新 CC 选项 之 一 的 测试 是 看 TF_REQ_CC 标 志 是 否 打 开 ( 如 果 全 局 变量 
tcp_do_rfcl644 非 零 ， 该 标志 由 tcp_newtcpcb 油 活 )、TF_NOOPT 标 志 是 否 关闭 以 及 
RST 标 志 是 否 关闭 。 发 送 哪 个 CC 选项 则 取决 于 输出 报 文 段 中 SYN 标 志和 ACK 标 志 的 状态 。 这 
样 就 有 四 种 可 能 的 组 合 ， 前 两 种 如 图 9-6 所 示 ( 这 段 代 码 在 卷 2 第 698 页 的 第 268~269 行 )。 

TE_NOOPT 标 志 是 由 新 增 的 TCP_NOOPT 插 口 选项 控制 的 。 该 插口 选项 出 现在 

Thomas Skibo 写 的 RFC 1323 的 代码 中 ( 见 12.7 节 )。 在 卷 2 中 曾 指 出 ， 这 个 标志 (不 是 

指 插口 选项 ) 自 从 4.2BSD 以 后 就 已 经 在 伯克利 源 代 码 中 存在 了 ,但 通常 无 法 将 其 打开 。 
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如 果 设置 了 这 个 选项 ，TCP 就 不 用 随 SYN 发 送 任 何 选项 。 新 增 这 个 选项 用 来 处 理 TCP 
实现 中 的 不 一 致 性 ， 因 为 这 些 实 现 不 能 忽略 未 知 的 TCP 选 项 (自从 RFC 1323 修 改 以 
后 ,增加 了 两 个 新 的 TCP 选 项 )。 

T/TCP 所 做 的 修改 并 没有 改变 确定 是 否 发 送 MSS 选 项 的 那 段 代码 ( 卷 2 第 697 页 )。 
如 果 TF_NOOPT 标 志 没 有 设置 ， 这 段 代码 就 不 发 送 MSS 选 项 。 但 是 Bob Braden 在 他 的 
RFC 1323 代 码 中 指出 ， 没 有 真正 的 理由 需要 阻止 发 送 MSS 选 项 。MSS 选 项 是 RFC 
793 规 范 中 的 一 部 分 内 容 。 


TT EA tcp output.c 
300 * Send CC-family options if our side wants to use them (TF REQ CC), 
301 * options are allowed (!TF NOOPT) and it's not a RST. 
302 a i 
303 if ((tp->t_flags & (TF_REQ_CC | TF NOOPT)) -- TF REQ CC && 
304 (flags & TH RST) -- 0) ( 
305 switch (flags & (TH SYN | TH ACK)) ( 
306 y 
307 * This is a normal ACK (no SYN); 
308 '* send CC if we received CC from our peer. 
309 x/ 
310 case TH ACK: 
311 if (!(tp-»t flags & TF RCVD CC)) 
312 break; 
313 /* FALLTHROUGH */ 
314 /* 
315 * We can only get here in T/TCP's SYN SENT* state, when 
316 * we're sending a non-SYN segment without waiting for 
317 * the ACK of our SYN. A check earlier in this function 
318 * assures that we only do this if our peer understands T/TCP. 
319 * 
320 case 0: 
321 opt [optlen++] = TCPOPT NOP; 
322 opt[optlen««] = TCPOPT NOP; 
323 opt [optlen++] = TCPOPT CC; 
324 opt [optlen++] = TCPOLEN_CC; 
325 *(u int32 t *) & opt[optlen] = htonl(tp-»cc send); 
326 optlen += 4; 
327 break; 
tcp output.c 


图 9-6 tcp output: 发 送 一 个 CC 选项 ， 第 一 部 分 


1. SYN 关 闭 ，ACK 打 开 
310-313 如果 SYN 标 志 关 闭 ， 但 ACK 标 志 打 开 ， 这 就 是 常规 的 ACK( 即 连接 已 经 建立 )。 只 
有 从 对 等 端 收 到 一 个 CC 选项 以 后 ， 才 会 发 送 CC 选项 。 

2. SYN 关 闭 ，ACK 关 闭 
314-320 只 有 在 SYN_SENT* 状 态 下 ， 即 在 连接 建立 以 前 就 发 送 了 一 个 非 SYN 报 文 段 时 ， 这 
两 个 标志 才 会 同时 关闭 。 也 就 是 说 ， 在 客户 一 次 发 送 了 多 倍 MSS 数 量 的 数据 时 才 会 这 样 。 图 
9-2 中 的 代码 能 够 确保 只 有 在 对 等 端 也 支持 T/TCP 时 才 会 进入 这 种 状态 。 这 种 情况 下 就 要 发 送 
CC 选项 。 

3. 构造 CC 选项 
321-327 在 构造 CC 选项 时 ， 要 先 加 上 两 个 空 字符 。 该 连接 cc_send 的 值 就 作为 CC 选项 的 
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内 容 发 送出 去 。 
SYN 标 志和 ACK 标 志 状 态 组 合 的 剩余 两 种 情况 如 图 9-7 所 示 。 
m Ta tcp output.c 
329 * This is our initial SYN (i.e., client active open). 
330 * Check whether to send CC or CCnew. 
331 wy 
332 case TH SYN: 
333 opt [optlen++] = TCPOPT NOP; 
334 opt[optlen*««] = TCPOPT NOP; 
335 opt [opt1len++] = 
336 (tp-»t flags & TF SENDCCNEW) ? TCPOPT CCNEW : TCPOPT CC; 
337 opt[optlen««] = TCPOLEN CC; 
338 *(u int32 t *) & opt[optlen] - htonl(tp-»cc send); 
339 optlen += 4; 
340 break; 
341 [* 
342 * This is a SYN, ACK (server response to client active open). 
343 * Send CC and CCecho if we received CC or CCnew from peer. 
344 £y 
345 case (TH_SYN | TH_ACK): 
346 if (tp->t_flags & TF RCVD CC) { 
347 opt [optlen++] = TCPOPT NOP; 
348 opt [optlen++] = TCPOPT NOP; 
349 opt[optlen++] = TCPOPT_CC; 
350 opt[optlen««] = TCPOLEN CC; 
351 *(u int32 t *) & opt[optlen] = htonl(tp-»cc send); 
352 optlen += 4; 
353 opt [optlen++] = TCPOPT NOP; 
354 opt[optlen++] = TCPOPT_NOP; 
355; opt[optlen««] = TCPOPT CCECHO; 
356 opt[optlen««] = TCPOLEN CC; 
357 *(u int32 t *) & opt[optlen] - htonl(tp-»cc recv); 
358 optlen += 4; ` 
359 } 
360 break; 
361 } 
362 ) 
363 hdrlen += optlen; 
tcp output.c 


图 9-7 tcp output: 发 送 CC 选项 之 一 ， 第 二 部 分 


4.SYN 打 开 ，ACK 关 闭 (客户 主动 打开 ) 
328-340 当 客 户 执行 主动 打开 时 ，SYN 打 开 且 ACK 关 闭 。 如 果 应 该 发 送 CCnew 选 项 而 不 是 
CC 选项 ， 图 12-3 中 的 代码 完成 PTE_SENDCCNEW 标 志 的 设置 ， ip 

5. SYN 打 开 ，ACK 打 开 ( 服 务 器 响应 客户 端的 SYN) 
341-360 当 SYN 标 志和 ACK 标 志 同 时 处 于 打开 状态 时 ， 这 就 是 服务 器 对 对 等 端的 主动 打开 
做 出 了 响应 。 如 果 对 等 端 发 送 了 CC 或 CCnew 选 项 之 一 (设置 了 TF_RCVD_CC)， PRENNE 
对 等 端 发 送 CC 选项 (cc_send) 和 对 对 等 端 CC 值 (cc_zecv) 的 CCecho。 

6. 根据 TCP 选 项 调整 TCP 首 部 长 度 
363 ”所 有 的 TCP 选 项 都 加 长 了 TCP 首 部 的 长 度 。 
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根据 TCP 选 项 调整 数据 长 度 


t_maxopd 是 Ecpcb 结 构 的 新 字段 且 是 最 大 数据 长 度 ， 并 且 也 是 常规 TCP 报 文 段 的 选项 。 
因为 窗口 宽度 选项 和 CCecho 选 项 只 在 SYN 报 文 段 中 出 现 ， 因 此 在 SYN 报 文 段 中 的 选项 ( 见 图 2-2 
和 图 2-3) 很 有 可 能 会 比 非 SYN 报 文 段 的 选项 ( 见 图 2-4) 需 要 更 多 的 字 节 空间 。 图 9-8 中 的 代码 根据 
TCP 选 项 的 大 小 调整 发 送 报 文 段 中 的 数据 量 。 这 段 代 码 用 于 替代 卷 2 第 698 页 的 第 270~277 行 。 


TF "T tcp output.c 
365 * Adjust data length if insertion of options will 
366 * bump the packet length beyond the t maxopd length. 
367 * Clear the FIN bit because we cut off the tail of 
368 * the segment. 
369 xy 
370 if (len + optlen > tp->t_maxopd) { 
371 p* 
372 * If there is still more to send, don't close the connection. 
373 nd 
374 flags &- TH FIN; 
375 len = tp-»t maxopd - optlen; 
376 sendalot - 1; 
377 ) 
tcp output.c 


图 9-8 tcp output; 根据 TCP 选 项 的 大 小 调整 发 送 数据 量 
364-377 ”如果 数据 长 度 (len) 加 上 选项 长 度 超 过 了 t_maxopd， 发送 的 数据 量 就 要 缩减 ， 
FIN 标 志 关 闭 (如 果 它 原来 是 开 状 态 )， 且 sendalot 打 开 ( 在 当前 报 文 段 发 出 后 强迫 再 次 执行 
tcp_output 人 循环 )。 
这 些 代 码 并 不 是 T/TCP 专 有 的 。 它 应 该 对 任何 一 个 既 携 带 数 据 又 有 TCP 选 项 ( 例 
如 RFC 1323 时 间 蕉 选项 ) 的 报 文 段 执行 。 


9.3 小 结 


T/TCP 在 原本 500 行 的 tcp_output 函 数 上 增加 了 大 约 100 行 代码 。 增 加 的 大 部 分 代码 都 
与 发 送 新 增 的 T/TCP 选 项 CC、CCnew 和 CCecho 等 有 关 。 

另外 ， 如 果 对 等 端 支持 T/TCP，T/TCP 的 tcp_output 国 数 可 以 在 SYN_SENT 状 态 下 发 送 
多 个 报 文 段 。 


第 10 章 T/TCP 实 现 ，TCP 函 数 


10.1 概述 


本 章 包 括 了 T/TCP 做 过 修改 的 各 个 TCP 函 数 。 也 就 是 说 ，t cp_output( 前 一 章 )、 
tcp input， 和 tcp_usrreqg( 后 两 章 ) 以 外 的 所 有 函数 。 本 章 定 义 了 两 个 新 的 函数 ， 
tcp rtlookup 和 tcp_gettaocache， 用 于 在 TAO 缓 存 中 查找 记录 项 。 

tcp_close 函 数 修改 以 后 ， 当 使 用 T/TCP 的 连接 关闭 时 ， 可 以 在 路 由 表 中 记录 往返 时 间 
佑 计 值 (平滑 的 平均 值 和 平均 偏差 估计 )。 常 规 协 议 只 在 连接 上 传送 了 至 少 16 个 满 数 据 报 文 段 后 
才 记 录 。 然 而 ，T/TCP 通 常 只 发 送 少量 数据 ， 但 与 同一 对 等 端 之 间 的 这 些 不 同 连接 的 估计 值 
应 该 保留 下 来 。 

T/TCP 中 对 MSS 选 项 的 处 理 也 有 所 改变 。 有 一 部 分 改变 是 为 了 在 Net/3 中 清理 过 载 的 
tcp_mss 函 数 ， 这 样 就 把 它 分 成 了 一 个 计算 MSS 以 便 发 送 的 函数 (tcp_mssend) 和 另 一 个 处 
理 接 收 到 的 MSS 选 项 的 函数 (tcp_mssrcvd)。T/TCP 同 时 也 将 从 对 等 端 收 到 的 最 新 MSS 值 保 
存 到 TAO 缓 存 记 录 项 中 。 在 接收 到 服务 器 的 SYN 和 最 新 的 MSS 之 前 ， 如 果 要 随 SYN 发 送 数 据 ， 
T/TCP 就 用 这 个 记录 来 初始 化 发 送 MSS。 

Net/3 中 的 tcp_dooptions 函 数 修 改 以 后 能 够 识别 三 个 新 的 T/TCP 选 项 : CC、CCnew 和 
CCecho, 


10.2 tcp newtcpcbif Zi 


用 PRU_ATTACH 请 求 创建 新 的 插口 时 要 调用 该 函数 。 图 10-1 中 的 五 行 代 码 用 来 代替 卷 2 第 
667 页 的 第 177~178 行 。 | 


tcp subr.c 
180 tp-»t maxseg = tp-»t maxopd = tcp mssdflt; 
181 if (tcp do rfc1323) 
182 tp-»t flags = (TF REQ SCALE | TF REQ TSTMP); 
183 if (tcp do rfc1644) 
184 tp-»t flags |- TF REQ CC; 
tcp subr.c 


图 10-1 tcp newtcpcbH.: TATCP 所 做 的 修改 


i180 ”在 前 面 图 8-3 有 关 的 介绍 中 提 到 过 ，t_maxopd 是 每 个 报 文 段 中 可 以 发 送 的 TCP 选 项 加 
上 数据 的 最 大 字 节 数 。 它 和 t_maxseg 的 默认 值 均 为 512(tcp_mssdf1t)。 由 于 这 两 个 值 相 
等 ， 表 明报 文 段 中 不 能 再 有 TCP 选 项 。 在 后 面 的 图 10-13 和 图 10-14 中 ， 如 果 时 间 惟 选项 或 者 
CC 选项 (或 者 两 者 同时 ) 需 要 在 报 文 段 中 发 送 ， 就 要 减 小 t_maxseg 的 值 。 

183-184 ”如果 全 局 变量 tcp_do_rfc1l644 非 零 ( 它 的 默认 值 为 1 )， 且 设置 了 TF_REQ_CC 标 
志 ， 这 将 使 tcp_output 伴 随 SYN 发 出 CC 或 CCnew 选 项 (图 9-6)。 
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10.3 tcp rtlookupifiZi 
tcp_mss( 卷 2 第 717~718 页 ) 执 行 的 第 一 项 操作 是 读 取 为 该 连接 所 缓存 的 路 由 (存储 在 


route.h 
46 struct route { 
47 struct rtentry *ro rt; /* pointer to struct with information */ 
48 struct sockaddr ro dst; /* destination of this route */ 
49 ); 

route.h 

图 10-2 route 结 构 
tcp_subr.c 

432 struct rtentry * 
433 tcp_rtlookup (inp) 
434 struct inpcb *inp; 
435 { 
436 struct route *ro; 
437 struct rtentry *rt; 
438 ro = &inp->inp_route; 
439 rt = ro->ro_rt; 
440 if (rt == NULL) ( 
441 /* No route yet, so try to acquire one */ 
442 if (inp-»inp faddr.s addr != INADDR ANY) ( 
443 ro-»ro dst.sa family - AF INET; 
444 ro-»ro dst.sa len - sizeof(ro-»ro dst); 
445 ((struct sockaddr in *) &ro-»ro dst)-»sin addr - 
446 inp-»inp faddr; 
447 rtalloc(ro); 
448 rt - ro-»ro rt; 
449 ) 
450 ) 
451 return (rt); 
d tcp subr.c 


图 10-3 tcp_rtlookup Á% 
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图 10-4 在 Internet PCB 中 缓存 的 路 由 全 貌 
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Internet PCB 的 ijnp_route 字 段 中 )， 如 果 该 路 由 还 没有 缓存 过 ， 则 调用 rtalloc 查 找 路 由 。 
现在 这 项 操作 安排 在 另 一 个 独立 的 函数 tcp_rt1lookup 中 实现 ， 我 们 将 在 图 10-3 中 介绍 。 这 
样 做 是 因为 连接 的 路 由 表 记 录 项 中 包括 有 TAO 信 息 ，T/TCP 需 要 更 经 常 地 执行 这 一 项 操作 。 
438-452 如 果 这 个 连接 的 路 由 还 没有 在 缓存 中 记录 ，rtalloc 就 计算 出 路 由 。 但 仅仅 当 
PCB 中 的 外 部 地 址 非 0 时 才能 计算 路 由 。 在 调用 rtalloc 之 前 ， 要 先 填写 route 结 构 中 的 
sockaddr _ in 结构 。 

图 10-2 给 出 了 route 结 构 ， 其 中 的 一 个 结构 在 每 个 Internet PCB 中 都 有 。 

图 10-4 给 出 了 这 个 结构 的 全 貌 ， 图 中 假定 外 部 地 址 为 128.32.33.5。 


10.4 tcp gettaocache 函 数 


一 个 给 定 主 机 的 TAO 信息 保存 在 该 主机 的 路 由 表 记 录 项 中 ， 确 切 地 说 ， 是 在 zt_ 
metrics 结 构 的 rmx_filler 字 段 中 ( 见 6.5 节 )。 图 10-5 所 示 的 函数 tcp_gettaocache 返 回 
指向 该 主机 TAO 缓存 的 指针 。 


tcp subr.c 
458 struct rmxp tao * 
459 tcp gettaocache(inp) 
460 struct inpcb *inp; 
461 ( 
462 struct rtentry *rt - tcp rtlookup(inp); 
463 /* Make sure this is a host route and is up. */ 
464 if (rt -- NULL || 
465 (rt-»rt flags & (RTF UP | RTF HOST)) !- (RTF UP | RTF. HOST)) 
466 return (NULL); 
467 return (rmx taop(rt-»rt rmx)); 
468 ) 
tcp subr.c 


图 10-5 tcp_gettaocache 国 数 


460-468 tcp_rtlookup 返 回 的 指针 指向 外 部 主机 的 rtentry 结 构 。 如 果 查 找 成 功 ， 并 
且 RTF_UP 和 RTF_HOST 标 志 均 打开 了 ， 则 宏 rmx_taop( 见 图 6-3) 返 回 的 指针 指向 rmxp_tao 
结构 。 


10.5 重 传 超时 间隔 的 计算 


Net/3 的 TCP 要 测量 数据 报 文 段 往返 时 间 、 跟 踪 平 滑 的 RTT 估 计 器 (srtf) 和 平滑 的 平均 偏差 
估计 器 (rttvar)， 并 据 此 计算 重 传 超时 间隔 (RTO)。 平 均 念 差 是 标准 差 的 良好 逼近 ， 比 较 容 易 计 
算 ， 因 为 与 标准 差 不 一 样 ， 平 均 偏 差 不 需要 做 平方 根 运 算 。 文 献 [Jacobson 1988] 给 出 了 RTT 测 
量 的 其 他 细节 ， 并 导出 以 下 的 计算 公式 ; 

delta-data-srtt 
srtt—srtt+g x delta 
rttvar —rttvar+h(|delta|—rttvar) 
RTO=srtt+4 x rttvar 
其 中 ，delta 是 刚刚 得 到 的 往返 时 间 测 量 值 (data) 与 当前 的 平滑 的 RTT 佑 计 器 (srtf) 之 差 ，g 是 应 
用 于 RTT 估 计 器 的 增益 ， 等 于 1/8; h 是 应 用 于 平均 偏差 估计 器 的 增益 ， 等 于 1/4。 在 RTO 计 算 
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中 的 两 个 增益 和 乘 数 4 特意 取 为 2 的 乘 寡 ， 因 此 可 以 通过 移 位 操作 来 代替 乘除 运算 。 卷 2 的 第 25 
章 给 出 了 如 何 用 定点 整数 来 保存 这 些 值 的 有 关 细 节 。 

在 常规 的 TCP 连 接 中 ， 在 计算 sra 和 rtvar 这 两 个 估计 器 时 ， 通 常 要 对 多 个 RIT 取 样 ， 对 于 
图 1-9 中 的 给 定 最 小 TCP 连 接 来 说 ， 至 少 要 有 两 个 样本 。 而 且 ， 在 一 定 条 件 下 ，Net3 将 对 相同 
主机 之 间 的 多 个 连接 运用 这 两 个 估计 器 。 这 是 tcp_close 国 数 实现 的 ， 在 一 个 连接 关闭 时 ， 
如 果 有 关 对 等 端的 路 由 表 记 录 项 不 是 默认 路 由 ， 并 且 至 少 得 到 了 16 个 RTT 样 值 。 估 计 的 结果 
存储 在 路 由 表 记 录 项 中 rt_metrics 结 构 的 rmx_rtt 和 rmx_rttvar 字 段 中 。 新 连接 建立 时 ， 
tcp_mssrcvd( 见 10.8 节 ) 从 路 由 表 记 录 项 中 取出 这 两 个 值 作为 srtt 和 rttvar 这 两 个 估计 器 的 初 
始 值 。 

T/TCP 中 出 现 的 问题 是 ， 一 个 最 小 连接 只 有 一 个 RTT 测 量 值 ， 而 且 少 于 16 个 样 值 是 很 正常 
的 ， 因 此 在 两 个 对 等 端 之 间 相继 建立 拆除 的 T/TCP 连 接 对 上 述 测 量 和 估计 一 点 贡献 也 没有 。 
这 就 意味 着 在 TITCP 中 ， 第 一 个 报 文 段 发 出 去 时 根本 就 不 知道 RTO 的 取 值 应 该 是 多 少 。 卷 2 的 
25.8 节 讨论 了 tcp_newtcpcb 执 行 初始 化 时 是 怎样 确定 第 一 个 RTO 应 该 是 6 秒 的 。 

让 tcp_close 在 即使 只 收集 到 少 于 16 个 样 值 也 存储 对 TATCP 连 接 的 平滑 估计 结果 并 不 难 
(在 10.6 节 中 我 们 会 看 到 为 此 所 做 的 修改 )， 但 问题 是 : 如 何 将 新 估计 值 与 以 前 的 估计 值 进行 归 
并 ? 不 幸 的 是 ， 这 仍然 还 是 一 个 正在 研究 的 问题 [Paxson 1995a], 

为 了 理解 各 种 不 同 的 可 能 性 ， 请 考虑 图 10-6 中 的 情况 。 从 作者 的 一 台 主 机 上 通过 Internet 
向 另 一 台 主 机 上 的 回 显 服务 器 发 送 100 个 400 字 节 长 的 UDP 数据 报 (在 一 个 工作 日 的 下 午 ， 通 常 
nho ieri 93 个 数据 报 有 回 显 返回 (还 有 7 个 不 知 在 Internet 的 哪些 地 方 丢失 

， 在 图 10-6 中 给 出 了 前 91 个 数据 报 。 样 值 是 在 30 分 钟 的 时 间 内 采集 到 的 ， 前 后 数据 报 之 间 
erate hore 实际 的 RTT 是 在 客户 主机 上 运行 Tcpdump 得 到 
的 。 黑 点 就 是 测量 得 到 的 RTT。 另 外 的 三 条 实 线 ( 从 上 至 下 依次 是 RTO、srtt 和 rttvar) 是 运用 本 


2400 2400 








时 间 


(ms) 


图 10-6 RTTJN E XD PMBJRTO, srttfürttvar 


88 第 一 部 分 TCP AR 


节 开 头 的 公式 从 测 得 的 RTT 计 算出 来 的 。 计 算是 用 浮 点 算术 完成 的 ， 而 不 是 Net/3 中 实际 所 用 
的 定点 整数 方法 。 图 上 所 示 的 RTO 就 是 从 相应 的 数据 点 计算 出 来 的 值 。 也 就 是 说 ， 第 一 个 数据 
点 (大 约 2200 ms) 的 RTO 是 从 第 一 个 数据 点 计算 得 来 的 ， 将 用 作 下 一 个 报 文 段 发 送 时 的 RTO。 

尽管 所 测 得 的 RTT 值 平均 都 在 800 ms 以 下 (作者 的 客户 系统 是 通过 拨号 线 上 的 PPP 连 接 到 
Internet 上 的 ， 穿 越 整个 国家 才能 到 达 服 务 器 )， 第 26 个 样 值 的 RTT 几 乎 达到 1400 ms， 此 后 有 
少量 的 一 些 点 在 1000 ms 左右 。[Jacobson 1994] 指 出 ,“ 只 要 是 有 竞争 的 连接 共享 一 条 路 由 ， 
瞬间 RTT 波 动 达到 2 倍 最 小 值 是 完全 正常 的 (它们 仅仅 表示 另外 一 个 连接 的 开始 或 丢失 后 重新 开 
始 )， 因 此 ，RTO 小 于 2 x RTT 从 来 就 不 会 是 合理 的 。” 

当 估 计 器 有 新 值 存储 到 路 由 表 记 录 项 中 时 ， 必 须 做 出 判断 ， 对 应 于 已 经 过 去 的 历史 ， 有 
多 少 信息 是 新 的 。 这 样 ， 计 算 公式 就 为 : 

savesrtt=g X savesrtt--(1—g) X srtt 
saverttvar-g X saverttvar*(1—g) x rttvar 

这 是 一 个 低 通 滤波 器 ， 其 中 g 是 取 值 在 0~1 之 间 的 过 滤 增 益 常 量 ，savesrtt 和 saverttvar 是 存储 在 
路 由 表 记 录 项 中 的 数值 。 当 Net/3 用 这 些 公式 更 新 路 由 表 记 录 时 ( 当 一 个 连接 关闭 ， 并 假定 得 到 
了 16 个 样 值 )， 它 采用 的 增益 是 0.5: 存储 在 路 由 表 中 的 值 有 一 半 是 路 由 表 中 的 旧 值 ， 另 有 一 半 
是 当前 估计 的 值 。Bob Braden 的 T/TCP 代 码 中 取 增 益 为 0.75。 
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图 10-7 TCP 平 滑 与 T/TCP 平 滑 的 比较 


图 10-7 给 出 了 从 图 10-6 中 的 数据 用 常规 TCP 计 算 方法 算出 的 结果 与 用 滤波 器 增益 0.75 平 滑 
的 计算 结果 之 间 的 比较 。 图 中 的 三 条 虚线 就 是 图 10-6 中 的 三 个 变量 (RTO 在 最 上 方 ，sru 在 中 间 ， 
rtivar 在 底部 )。 三 条 实 线 则 是 假定 每 一 个 数据 点 都 是 一 个 独立 T/TCP 连 接 (每 一 个 连接 有 一 个 
RTT 测 量 值 ) 所 对 应 的 变量 ， 并 且 采 用 滤波 增益 0.75 进 行 了 平滑 。 要 知道 有 这 样 的 差别 : 虚线 
对 应 的 是 一 个 TCP 连 接 在 30 分 钟 内 的 91 个 RTT 样 本 ， 而 实 线 对 应 的 则 是 在 同样 的 30 分 钟 内 91 
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个 独立 的 T/TCP 连 接 ， 每 个 连接 有 一 次 RTT 测 量 。 实 线 同 时 还 是 91 个 连接 的 所 有 相继 两 个 估计 
值 归并 后 记录 到 两 个 路 由 度量 值 中 的 。 

代表 sm 的 实 线 和 虚线 差别 不 大 ， 但 是 代表 rtvar 的 实 线 和 虚线 之 间 就 有 明显 的 差别 。mtvar 的 
实 线 (T/TCP 情 况 ) 取 值 通常 大 于 虚线 (单个 TCP 连 接 )， 使 T/TCP 的 重 传 超 时 间隔 可 以 取 更 大 的 值 。 

还 有 其 他 因素 也 在 影响 T/TCP 中 的 RTT 测 量 。 从 客户 端 来 看 ， 所 测 得 的 RTT 通 常 包括 服务 
器 的 处 理 时 间或 者 服务 器 的 延迟 ACK 定 时 值 ， 因 为 服务 器 的 应 答 通常 会 延迟 到 这 些 事件 发 生 
后 才 给 出 。 在 Net/3 中 ， 延 迟 ACK 的 定时 器 值 是 每 200 ms 到 时 一 次 ， 而 RTT 测 量 的 时 间 单 位 为 
500 ms， 因 此 应 答 时 延 不 会 是 一 个 大 的 因素 。 而 且 T/TCP 报 文 段 的 处 理 常常 会 在 TCP 输 入 处 理 
中 遭遇 慢 通 道 ( 例 如 ， 报 文 段 常 常 不 被 用 于 首部 预测 )， 会 加 大 测 得 的 RTT 值 (然而 快 通道 与 慢 
通道 的 差别 相对 于 200 ms 的 延迟 ACK 定 时 器 值 来 说 很 可 能 是 可 以 忽略 的 )。 最 后 ， 如 果 存 储 在 
路 由 表 中 的 值 “ 过 时 ”了 (就 是 说 ,其 最 后 一 次 更 新 是 在 一 个 小 时 以 前 ), 在 当前 事务 完成 以 后 ， 
或 许 应 该 用 当前 的 测量 值 直接 替换 路 由 表 中 的 值 ， 而 不 是 用 新 的 测量 值 与 已 有 的 测量 值 归并 。 

如 RFC 1644 中 所 指出 的 ， 需 要 对 TCP 中 的 动态 特性 做 更 多 的 研究 ， 特 别 是 TITCP， 以 及 
RTT 估 计 。 


10.6 tcp close 函数 


tcp_close 的 唯一 改变 是 要 为 T/TTCP 事 务 记 录 RTT 佑 计 值 ， 即 使 还 没有 凑 足 16 个 样 值 。 
我 们 在 前 一 节 中 已 经 叙述 了 这 样 做 的 原因 。 图 10-8 给 出 了 代码 。 


DE 
252 if (SEQ LT(tp-»iss + so-»so snd.sb hiwat * 16, tp-»snd max) && 
253 (rt = inp-»inp route.ro rt) && 


254 ((struct sockaddr in *) rt key(rt))-»sin addr.s  addr !- INADDR ANY) ( 





304 ) else if (tp-»cc recv !- 0 && 


305 (rt = inp-»inp route.ro rt) && 

306 ((struct sockaddr in *) rt key(rt))-»sin addr.s addr !- INADDR ANY) ( 
307 jx 

308 * For transactions we need to keep track of srtt and rttvar 
309 * even if we don't have 'enough' data for above. 

310 */ ] 

311 u long i; 

312 if ((rt-»rt rmx.rmx locks & RTV RTT) -- 0) ( 

313 i = tp-»t srtt * 

314 (RTM RTTUNIT / (PR SLOWHZ * TCP RTT SCALE)); 

315 if (rt-»rt rmx.rmx rtt && i) 

316 /* " 

317 * Filter this update to 3/4 the old plus 

318 * 1/4 the new values, converting scale. 

319 *y 

320 rt-»rt rmx.rmx rtt - 

321 (3 * rt-»rt rmx.rmx rtt + i) / 4; 

322 else 

323 rt-»rt rmx.rmx rtt s i; 

324 ) 


图 10-8 tcp_close 国 数 : 为 T/TCP 事 务 保存 RTT 估 计 值 
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325 if ((rt-»rt rmx.rmx locks & RTV RTTVAR) == 0) ( 
326 i = tp-»t rttvar * 
327 (RTM RTTUNIT / (PR SLOWHZ * TCP RTTVAR SCALE)); 
328 if (rt-»rt rmx.rmx rttvar && i) 
329 rt-»rt rmx.rmx rttvar - 
330 (3 * rt-»rt rmx.rmx rttvar + i) / 4; 
331 else 
332 rt-»rt rmx.rmx rttvar - i; 
333 ) 
334 ) 
tcp subr.c 
图 10-8 (£3) 


1. 只 对 T/TCP 事 务 进行 更 新 
304-311 只 有 在 连接 中 使 用 了 T/TCP(cc_recv 非 0)、 有 一 路 由 表 记 录 项 存在 及 不 是 默认 路 
由 时 才 更 新 路 由 表 记 录 项 中 的 度量 值 。 而 且 ， 只 有 当 两 个 RTT 估 计 值 没有 加 锁 (RTV_RTT 和 
RTV_RTTVRAR 位 ) 时 才 更 新 。 

2. 更 新 RTT 
312-324 t srtt 是 以 500 ms x 8 为 时 间 单 位 保存 的 ，rmx_rtt 则 以 Ls 为 单位 保存 。 这 样 ， 
t srttj93&1 000 000(RTM_RTTUNIT) 除 2( 时 间 单 位 / 秒 ) 再 乘 8。 如 果 rmx_rtt 已 经 有 值 ， 
新 记录 值 就 是 旧 值 的 四 分 之 三 加 上 新 值 的 四 分 之 一 。 这 就 是 取 滤 波 增益 为 0.75， 我 们 在 前 一 
节 已 讨论 过 。 否 则 ， 直 接 将 新 值 保存 到 rmx_rtt 中 。 

3. 更 新 平均 偏差 
325-334 ”对 平均 偏差 估计 值 应 用 同样 的 算法 。 它 也 以 ms 为 单位 保存 ， 需 要 将 t_rttvar 中 
的 单位 时 间 x 4. 


10.7 tcp msssend 函 数 


在 Net/3 中 ， 有 一 个 函数 tcp_mss( 卷 2 的 27.5 节 )， 在 处 理 MSS 选 项 时 tcp_input 要 调用 
它 ， 在 需要 发 送 MSS 选 项 时 tcp_output 也 要 调用 它 。 在 T/TCP 中 ， 这 个 函数 改名 为 
tcp mssrcvd, 在 执行 隐 式 连接 建 并 时 ， 收 到 SYN 后 ，tcp input 要 调用 它 (在 后 面 的 图 
10-18 中 ， 确 定 是 否 需 要 在 SYN 中 包含 MSS 选 项 )， 以 及 PRU_SEND 和 PRU_SEND_EOF 请 求 要 
调用 它 ( 见 图 12-4)。 有 一 个 新 的 函数 tcp_msssend， 如 图 10-9 所 示 ， 只 有 当 发 出 了 MSS 选 项 
时 ， 才 会 被 tcp_output 调 用 。 

1911 int tcp input.c 


1912 tcp msssend(tp) 
1913 struct tcpcb *tp; 


1914 ( 

1915 struct rtentry *rt; 

1916 extern int tcp mssdflt; 

1917 rt - tcp rtlookup(tp-»t inpcb); 

1918 if (rt -- NULL) 

1919 return (tcp mssdflt); 

1920 gs 

1921 * If there's an mtu associated with the route, use it, 


图 10-9 tcp_msssend 国 数 : 返回 MSS 值 ， 并 在 MSS 选 项 中 发 出 
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1922 * else use the outgoing interface mtu. 
1923 . */ 
1924 if (rt-»rt rmx.rmx mtu) 
1925 return (rt-»rt rmx.rmx mtu - sizeof(struct tcpiphdr)); 
1926 return (rt-»rt ifp-»if mtu - sizeof(struct tcpiphdr)); 
1927 ) 2 
tcp input.c 
图 10-9 (fx) 
1. 读 取 路 由 表 记 录 项 


1917-1919 为 每 一 个 对 等 主机 搜索 路 由 表 ， 如 果 没 有 找到 记录 项 ， 则 返回 默认 值 
512(tcp_mssdf1t)。 除 非 对 等 主机 不 可 达 ， 否 则 总 是 可 以 查找 到 一 个 路 由 表 记 录 项 的 。 

2. 返回 MSS 
1920-1926 如 果 路 由 表 有 一 个 关联 的 MTU(rt_metrics 结 构 中 的 rmx_mtu 字 段 ， 系 统管 
理 员 可 以 用 route 程 序 设置 )， 就 返回 该 值 。 否 则 ， 返 回 值 就 取 输 出 接口 的 MTU 减 去 40( 例 如 ， 
以 太 网 上 是 1460)。 因 为 路 由 已 经 由 tcp_rt1lookup 确 定 ， 输 出 接口 也 是 已 知 的 。 


在 路 由 表 中 存储 MTU 度 量 的 另 一 个 来 源 是 利用 路 由 MTU 发 现 过 程 ( 卷 1 的 24.2 
节 )， 尽 管 Net/3 中 还 不 支持 这 种 方法 。 


这 个 函数 不 同 于 通常 的 BSD 做 法 。 如果 对 等 端 是 非 本 地 主机 (由 in_localaddr 函 数 决 定 )， 
而 且 rmx_mtu 度 量 值 为 0， 则 Net/3 代 码 ( 卷 2 第 719 页 ) 中 总 是 将 MSS 取 为 512(tcp_mssdf1t)。 

MSS 选 项 的 目的 是 告诉 另 一 端 ， 该 选项 发 送 者 准备 接收 多 大 报 文 段 。REC 793 中 指出 ， 
MSS 选 项 “用 于 交流 发 送 这 个 报 文 段 的 TCP 的 最 大 可 接收 报 文 段 ” 。 在 一 些 实现 中 ， 这 可 能 受 
主机 能 够 重 装 的 最 大 卫 数 据 报 限制 。 然 而 在 当前 的 大 多 数 系统 中 ， 合 理 的 限制 决定 于 输出 接 
口 的 MTU ， 因 为 如 果 需 要 分 段 并 且 发 生 报 文 段 丢 失 ， 则 TCP 的 性 能 会 下 降 。 

下 面 的 注释 摘抄 于 Bob Braden 的 TATCP 源 码 修改 :“ 非 常 不 幸 ， 使 用 TCP 选 项 要 求 对 BSD 
做 可 观 的 修改 ， 因 为 它 对 MSS 的 处 理 是 错误 的 。BSD 总 是 要 发 出 MSS 选 项 ， 并 且 对 非 本 地 网 
络 的 主机 ， 这 个 选项 的 值 是 536。 这 是 对 MSS 选 项 用 途 的 误解 ， 这 个 选项 是 要 告诉 发 送 者 ， 接 
收 者 准备 处 理 什么 。 这 时 发 送 主机 要 决定 用 多 大 的 MSS， 既 要 考虑 它 接收 的 MSS 选 项 ， 还 要 
考虑 到 路 由 情况 。 当 我 们 有 了 MTU 发 现 以 后 ， 这 个 路 由 很 可 能 有 一 个 大 于 536 的 MTU; 这 样 ， 
BSD 就 会 降低 吞吐 率 。 因 此 ， 这 个 程序 只 确定 了 应 该 发 送 什 么 样 的 MSS 选 项 本 地 接口 的 
MTU 减 去 40。”( 这 段 注释 中 讲 到 的 值 536 应 为 512。) 

我 们 在 下 一 市 (图 10-12) 中 会 看 到 ， 如 果 对 等 端 是 非 本 地 主机 ，MSS 选 项 的 接收 者 才 把 
MSS 减 到 512。 


10.8 tcp mssrcvd 函 数 


在 执行 隐 式 连接 建立 时 ， 收 到 SYN 以 后 的 tcp_input 要 调用 tcp_mssrcvd,， 
PRU_SEND 和 PRU_SEND_EOF 也 都 要 调用 它 。 该 函数 与 卷 2 中 的 tcp_mss 函 数 相似 ,但 是 它 
们 之 间 还 是 有 足够 的 差别 ， 能 够 完成 我 们 所 需 的 全 部 功能 。 这 个 函数 的 主要 目标 是 设置 两 个 
变量 ,一 个 是 t_maxseg( 我 们 在 每 个 报 文 段 中 发 送 的 最 大 数据 量 )， 另 一 个 是 t_maxopd( 在 
每 个 报 文 段 中 发 送 的 数据 加 选项 的 最 大 长 度 )。 图 10-10 给 出 了 这 个 函数 的 第 一 部 分 。 
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1755 void rpms 

1756 tcp mssrcvd(tp, offer) 

1757 struct tcpcb *tp; 

1758 int offer; 

1759 ( 

1760 struct rtentry *rt; 

1761 struct ifnet *ifp; 

1762 int rtt, mss; 

1763 u long bufsize; 

1764 struct inpcb *inp; 

1765 struct socket *so; 

1766 struct rmxp tao *taop; 

1767 int origoffer - offer; 

1768 extern int tcp mssdflt; 

1769 extern int tcp do rfcl1323; 

1770 extern int tcp do rfc1644; 

1771 inp = tp-»t inpcb; 

1772 if ((rt = tcp rtlookup(inp)) == NULL) ( 

1773 tp-»t maxopd = tp-»t maxseg = tcp mssdflt; 

1774 return; 

1775 ) 

1776 ifp = rt-»rt ifp; 

1777 so = inp-»inp socket; 

1778 taop = rmx taop(rt-»rt rmx); 

1779 gia 

1780 * Offer == -1 means we haven't received a SYN yet; 

1781 * use cached value in that case. 

1782 *y 

1783 if (offer -- -1) 

1784 offer = taop-»tao mssopt; 

1785 vii 

1786 * Offer -- 0 means that there was no MSS on the SYN segment, 

1787 * or no value in the TAO Cache. We use tcp mssdflt. 

1788 wy 

1789 if (offer == 0) 

1790 offer = tcp mssdflt; 

1791 else 

1792 PE 

1793 * Sanity check: make sure that maxopd will be large 

1794 * enough to allow some data on segments even if all 

1795 * the option space is used (40 bytes). Otherwise 

1796 * funny things may happen in tcp output. 

1797 *J 

1798 offer - max(offer, 64); 

1799 taop-»tao mssopt = offer; g 
tcp_input.c 


图 10-10 tcp_mssrcvd 函 数 : 第 一 部 分 


1. 取 对 等 端的 路 由 及 其 TAO 缓存 
1771-1777 tcp_rtlookup 查 找到 达 对 等 端的 路 由 。 如 果 由 于 某 种 原因 , 查找 路 由 失败 了 ， 
t _maxseg 和 t_maxopd 就 同时 设置 为 512(tcp_mssdf1t)。 
1778-1799 taop 指 向 该 对 等 端的 TAO 缓存 ， 位 于 路 由 表 的 记录 项 中 。 如 果 因 为 用 户 进程 
调用 了 sendto( 一 次 隐 式 连接 建立 ， 是 PRU_SEND 和 PRU_SEND_EOF 请 求 的 一 部 分 ) 而 调用 
tcp_mssrcvd， 则 offer 设 置 为 TAO 缓 存 中 保存 的 值 。 如 果 TAO 中 的 该 值 为 0%，offer 就 设 
置 为 512。TAO 缓 存 中 的 值 被 更 新 。 
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图 10-11 给 出 了 该 函数 的 第 二 部 分 ， 与 卷 2 第 718 页 完全 相同 。 





1505 » tcp input.c 

1801 * While we're here, check if there's an initial rtt 

1802 * or rttvar. Convert from the route-table units 

1803 * to scaled multiples of the slow timeout timer. 

1804 Jj 

1805 if (tp-»t srtt -- 0 && (rtt - rt-»rt rmx.rmx rtt)) ( 

1806 [* 

1807 * XXX the lock bit for RTT indicates that the value 

1808 * is also a minimum value; this is subject to time. 

1809 kJ 

1810 if (rt-»rt rmx.rmx locks & RTV RTT) 

1811 tp-»t rttmin - rtt / (RTM RTTUNIT / PR SLOWHZ); 

1812 tp-»t srtt = rtt / (RTM RTTUNIT / (PR SLOWHZ * TCP RTT SCALE)); 

1813 if (rt-»rt rmx.rmx rttvar) 

1814 tp-»t rttvar = rt-»rt rmx.rmx rttvar / 

1815 (RTM RTTUNIT / (PR SLOWHZ * TCP RTTVAR SCALE)); 

1816 else i 

1817 /* default variation is +- 1 rtt */ 

1818 tp-»t rttvar = 

1819 ` tp->t_srtt * TCP_RTTVAR_SCALE / TCP_RTT_SCALE; 

1820 TCPT_RANGESET (tp->t_rxtcur, 

1821 ((tp-»t srtt >> 2) + tp->t_rttvar) >> 1, 

1822 tp->t_rttmin, TCPTV REXMTMAX); 

1823 ) . 
tcp input.c 





图 10-11 tcp_mssrcvd 国 数 : 用 路 由 表 度 量 值 初始 化 RIT 变 量 


1800-1823 如果 还 没有 该 连接 的 RTT 测 量 值 (t_srtt 为 0)， 并 且 rmx_rtt 度 量 值 为 非 0， 
这 时 变量 t_srtt、t_rttvar 和 t_rxtcur 就 用 路 由 表 记 录 项 中 保存 的 度量 值 初始 化 。 

如 果 路 由 表 度 量 值 加 锁 标 志 中 的 RTV_RTT 位 已 经 设置 ， 则 它 表明 还 要 用 rmx_rtt 来 初始 
化 这 次 连接 的 最 小 RTT(t_rttmin)。 上 默认 情况 下 ，t_rttmin 初 始 化 为 两 个 时 钟 步 进 ， 这 为 
系统 管理 员 替 换 该 默认 值 提供 了 一 个 方法 。 

图 10-12 给 出 了 tcp_mssrcvd 的 第 三 部 分 ， 用 于 设置 自动 变量 mss 的 值 。 


tcp_input.c 
1824 j* 
1825 * If there's an mtu associated with the route, use it. 
1826 "y 
1827 if (rt->rt_rmx.rmx_mtu) 
1828 mss = rt-»rt rmx.rmx mtu - sizeof (struct tcpiphdr); 
1829 else ( 
1830 mss = ifp-»if mtu - sizeof(struct tcpiphdr); 
1831 if (!in localaddr(inp-»inp. faddr)) 
1832 mss - min(mss, tcp mssdflt); 
1833 ) 
1834 mss - min(mss, offer); 
1835 p% 
1836 * t maxopd contains the maximum length of data AND options 
1837 * in a segment; t maxseg is the amount of data in a normal 
1838 * segment. We need to store this value (t maxopd) apart 
1839 * from t maxseg, because now every segment can contain options 
1840 * therefore we normally have somewhat less data in segments. 
1841 *j 
1842 tp-»t maxopd - mss; tep input.c 


图 10-12 tcp mssrcvd 国 数 : 计算 mss 变 量 的 值 
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1824-1834 如果 该 路 由 关联 于 一 个 MTU(zmx_mtu 度 量 值 )， 那 就 用 这 个 值 。 否 则 ，mss 就 
取 输 出 接口 的 MTU 减 去 40。 另 外 ， 如 果 对 等 端 是 在 另 一 个 网 络 ， 或 者 也 可 能 在 另 一 个 子 网 (由 
in localaddr 函 数 决定 ) 中 ， 这 时 mss 的 最 大 值 取 为 512(tcp_mssdf1lt)。 如 果 路 由 表 记 录 
项 中 已 经 保存 有 MTU， 那 就 不 再 进行 本 地 一 非 本 地 测试 。 

2. 设置 t maxopd 
1835-1842 t_maxopd 设 置 为 nss， 包括 了 数据 和 选项 的 最 大 报 文 段 长 度 。 
图 10-13 给 出 的 是 第 四 部 分 代码 ， 将 mss 减 去 在 每 一 个 报 文 段 中 都 有 的 选项 长 度 。 


TTE E tcp_input.c 
1844 * Adjust mss to leave space for the usual options. We're 

1845 * called from the end of tcp_dooptions so we can use the 

1846 * REQ/RCVD flags to see if options will be used. 

1847 *yf 

1848 /* 

1849 * In case of T/TCP, origoffer -- -1 indicates that no segments 
1850 * were received yet (i.e., client has called sendto). In this 
1851 * case we just guess, otherwise we do the same as before T/TCP. 
1852 tf 

1853 if ((tp->t_flags & (TF_REQ_TSTMP | TF NOOPT)) == TF REQ TSTMP && 
1854 (origoffer -- -1 || 

1855 (tp-»t flags & TF RCVD TSTMP) -- TF RCVD TSTMP)) 

1856 mss -- TCPOLEN TSTAMP APPA; 

1857 if ((tp-»t flags & (TF REQ CC | TF NOOPT)) -- TF REQ CC && 

1858 (origoffer -- -1 || 

1859 (tp-»t flags & TF RCVD CC) -- TF RCVD CC)) 

1860 mss -- TCPOLEN CC APPA; 

1861 #if (MCLBYTES & (MCLBYTES - 1)) == 0 

1862 if (mss » MCLBYTES) 

1863 mss &- ^(MCLBYTES - 1); 

1864 #else 

1865 if (mss » MCLBYTES) 

1866 mss - mss / MCLBYTES * MCLBYTES; 


1867 #endif 
tcp input.c 


图 10-13 tcp_mssrcvd 国 数 : 根据 选项 减 小 mss 


3. y RC JE IE [n] C PULO] ms s 
1843-1856 ”如果 下 面 中 的 任何 一 个 条 件 为 真 ， 则 mss 就 减 去 时 间 蕉 选项 的 长 度 
(TCPOLEN_TSTAMP_APPA， 即 12 字 市 ): 

1) 本 地 端 将 使 用 时 间 玲 选项 (TF_REQ_TSTAMP)， 并 且 还 没有 收 到 另 一 端 发 来 的 nss 选 项 

(origoffer 等 于 一 1); 

2) 已 经 收 到 另 一 个 端 发 来 的 时 间 恰 选项。 

在 代码 的 注释 中 指出 ， 由 于 tcp_mssrcvd 是 在 tcp_dooptions 结 束 时 所 有 的 选项 处 理 
完 以 后 调用 的 ( 见 图 10-18)， 因 此 第 二 项 测试 是 成 功 的 。 

4. 如 果 使 用 CC 选项 ， 就 减少 mss 
1857-1860 通过 相似 的 逻辑 ，mss 的 值 减 去 8 字 节 (TCPOLEN_CC_APPA)。 

这 两 个 长 度 名 称 中 出 现 术语 APPA 是 因为 ，RFC 1323 的 附录 A 中 建议 在 时 间 稚 先 
项 前 面 置 两 个 空 字符 NOP， 以 便 两 个 4 字 节 时 间 稚 值 的 长 度 都 能 取 4 字 节 的 整数 倍 。 
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同时 RFC 1644 也 有 一 个 附录 AA， 它 对 选项 排列 没有 说 什么 。 无 论 怎样 ， 在 三 个 CC 选 
项 的 任 一 个 前 面 都 置 两 个 NOP 是 有 一 定 道理 的 ， 如 图 9-6 所 示 。 
5. 含 人 MSS 为 MCLBYTES 的 倍数 


1861-1867 mss 要 伟人 取 整 为 MCLBYTES 的 整数 倍 ， 即 每 个 mbuf 徐 的 字 节 数 (通常 为 1024 或 
2048), 


ix fX —^MBERE MIL BI, Pie XMCLBYTES 265693 XX X, THRA 
逻辑 操作 来 代替 乘法 或 除法 运算 。 自 从 Net/1 开 始 ， 它 就 已 经 是 一 条 弯路 ， 应 该 清 
除 掉 。 

图 10-14 给 出 了 tcp_mssrcvd 代 码 的 最 后 一 部 分 ， 用 于 设置 发 送 缓存 和 接收 缓存 的 大 小 。 


1558 T tcp input.c 

1869 * If there's a pipesize, change the socket buffer 

1870 * to that size. Make the socket buffers an integral 

1871 * number of mss units; if the mss is larger than 

1872 * the socket buffer, decrease the mss. 

1873 -p 

1874 if ((bufsize - rt-»rt rmx.rmx sendpipe) -- 0) 

1875 bufsize - so-»so snd.sb hiwat; 

1876 if (bufsize « mss) 

1877 mss - bufsize; 

1878 else ( 

1879 bufsize - roundup(bufsize, mss); 

1880 if (bufsize » sb max) 

1881 bufsize - sb max; 

1882 (void) sbreserve(&so-»so snd, bufsize); 

1883 } 

1884 tp->t_maxseg = mss; 

1885 if ((bufsize = rt->rt_rmx.rmx_recvpipe) == 0) 

1886 bufsize = so-»so rcv.sb hiwat; 

1887 if (bufsize » mss) ( 

1888 bufsize - roundup(bufsize, mss); 

1889 if (bufsize » sb max) 

1890 bufsize - sb max; 

1891 (void) sbreserve(&so-»so rcv, bufsize); 

1892 

1893 J2 

1894 * Don’t force slow-start on local network. 

1895 S 

1896 if (!in localaddr(inp-»inp faddr)) 

1897 tp-»snd cwnd = mss; 

1898 if (rt-»rt rmx.rmx ssthresh) ( 

1899 /* 

1900 * There's some sort of gateway or interface 

1901 * buffer limit on the path. Use this to set 

1902 * the slow start threshhold, but set the 

1903 * threshold to no less than 2*mss. 

1904 xy 

1905 tp-»snd ssthresh = max(2 * mss, rt-»rt rmx.rmx ssthresh); 

1906 ) 

1907 ) P 
tcp input.c 


图 10-14 tcp_mssrcvd 函 数 ; 设置 发 送 和 接收 缓存 的 大 小 
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6. 改变 插口 发 送 缓存 的 大 小 
1868-1883 系统 管理 员 可 以 用 route 程 序 设 置 rmx sendpipe 和 rmx recvpipe 这 两 个 
度量 值 。bufsize 的 值 就 设置 为 rmx_sendpipe 的 值 (如 果 已 有 定义 )， 或 者 当前 插口 发 送 组 
存 的 高 位 值 。 如 果 bufsize 的 值 小 于 mss，mss 值 就 减 小 为 取 bufsize 的 值 (这 是 一 种 强迫 
MSS 取 比 给 定 目标 的 默认 值 还 小 的 取 值 方法 )。 否 则 ，bufsize 的 值 放 大 ， 取 mss 的 整数 倍 
(插口 缓存 的 大 小 总 是 取 报 文 段 长 度 的 整数 倍 )。 上 限 为 sb_max， 在 Net/3 就 是 262 144, 插口 
缓存 的 高 位 值 由 sbreserve 设 置 。 

7. 设置 t maxseg 
1884 t_maxseg 设 置 为 TCP 将 发 给 对 等 端的 最 大 数据 量 (不 包括 常规 选项 )。 

8. 改变 插口 接收 缓存 的 大 小 
1885-1892 插口 接收 缓存 的 高 位 值 可 以 用 类 似 的 逻辑 来 设置 。 例 如 ， 对 于 以 太 网 上 的 本 地 连 
接 来 说 ， 假 定时 间 惟 选项 和 CC 选项 同时 都 在 用 ， 则 t_maxopd 将 是 1460，t_maxseg 为 1440 
( 见 图 2-4)。 插 口 发 送 缓 存 和 接收 缓存 都 将 从 它们 的 默认 值 8192( 卷 2 的 图 16-4) 舍 入 到 8640 
(1440 x 6), 

9. 非 本 地 对 等 端 才 有 的 慢 局 动 
1893-1897 如 果 对 等 端 不 是 在 本 地 的 网 络 中 (in_1localaddr 为 假 )， 则 把 拥塞 窗口 
(snd_cwnd) 设 置 为 1 个 报 文 段 就 开始 了 慢 启 动 过 程 。 


仅仅 当 对 等 端 在 非 本 地 网 中 才 强 迫使 用 慢 启 动 是 T/TCP 修 改 后 的 结果 。 这 就 使 
T/TCP 的 客户 篇 或 服务 器 痛 可 以 向 本 地 对 等 峭 发送 多 个 报 文 段 ， 又 不 需要 慢 局 动 所 要 
求 的 额外 RTT 等 待 时间 ( 见 3.6 节 )。 在 Net3 中 ， 总 是 执行 慢 启动 过 程 ( 卷 2 第 721 页 )。 


10. 设置 慢 启动 门限 
1898-1906 如 果 慢 启动 门限 度量 值 (rmx_ssthresh) 非 0，snd ssthresh 就 设置 取 该 值 。 

我 们 在 图 3-1 和 图 3-3 中 可 以 看 到 MSS 和 TAO 缓存 与 接收 缓存 大 小 之 间 的 交叉 影响 。 在 图 3-1 
中 ， 客 户 端 执行 了 一 次 隐 式 连接 建立 ，PRU_SEND_EOF 请 求 调用 Ecp_mssrcvd， 其 中 offer 
为 -1， 该 函数 查找 到 对 应 服务 器 的 Eac_mssopt 值 为 0( 因 为 客户 端 刚 刚 重 启 )。 取 MSS 为 默认 
值 312， 因 为 只 使 用 了 CC 选项 (在 第 2 章 的 例子 中 ， 时 间 惟 无 效 )， 减 去 8 字 节 后 变 为 304。 注 意 ， 
8192 舍 入 为 504 的 整数 售后 为 8568， 这 是 客户 端 SYN 所 通告 的 窗口 。 然 而 ， 当 服务 器 调用 
tcp_mssrcvd 时 ， 它 已 经 接收 到 客户 端的 SYN， 其 中 给 定 MSS 为 1460。 这 个 值 减 去 8 字 节 ( 选 
项 长 度 ) 后 为 1452，8192 舍 入 到 1452 的 整数 倍 后 为 8712。 这 是 服务 器 的 SYN 中 通告 的 窗口 。 当 
客户 端 处 理 完 服务 器 的 SYN 后 (图 中 第 三 段 )， 客 户 端 再 次 调用 tcp_mssrcvd， 这 一 次 offer 
为 1460。 这 就 将 客户 端的 t_maxopd 增 大 至 1460， 客 户 端 的 t_maxseg 则 增 大 至 1452， 客 户 端 
的 接收 缓存 因 舍 入 而 增 至 8712。 这 就 是 客户 端 在 对 服务 器 的 SYN 发 出 ACK 时 通告 的 窗口 。 

在 图 3-3 中 ， 当 客户 端 执 行 了 隐 式 连接 建立 时 ，tao_mssopt 值 为 1460 一 一 最 近 一 次 从 对 
等 端 收 到 的 值 。 客 户 端 通告 的 窗口 为 8712， 为 1452 的 整数 倍 且 大 于 8192。 


10.9 tcp dooptionsif Zi 


在 Net/1 和 Net/2 版 中 ，tcp_dooptions 只 能 识别 NOP、EOL 和 MSS 选 项 ， 并 且 函 数 有 3 
个 参数 。 在 Net/3 中 增加 了 对 窗口 宽度 和 时 间 惟 选项 的 支持 后 ， 参 数 的 数量 也 增加 到 7 个 ( 卷 2 第 
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745~746 页 )， 其 中 有 3 个 就 是 为 了 时 间 改 选项 而 加 的 。 现 在 又 需要 支持 CC、CCnew 和 CCecho 
选项 ， 参 数 的 数量 不 是 增加 反而 减少 到 了 5 个 ， 因 为 采用 了 另 一 种 技术 来 返回 选项 是 否 存在 以 
及 它们 各 自 的 取 值 信息 。 

图 10-15 给 出 了 tcpopt 结 构 。 其 中 的 一 个 结构 是 在 tcp_input( 唯 一 可 以 调用 
tcp_dooptions 的 函数 ) 中 分 配 的 ， 并 且 将 指向 该 结构 的 指针 传 给 tcp_dooptions, 该 函 
数 填写 结构 的 内 容 。 在 处 理 接 收 到 的 报 文 段 时 ，tcp_input 要 用 到 存储 在 该 结构 中 的 值 。 


tcp_var.h 
138 struct tcpopt { 
139 u long to flag; /* TOF xxx flags */ 
140 u long to tsval; /* timestamp value */ 
141 u long to tsecr; /* timestamp echo reply */ 
142 tcp cc to cc; /* CC or CCnew value */ 
143 tcp cc to ccecho; /* CCecho value */ 
LA tcp_var.h 


图 10-15 tcpopt 结 构 ， 由 tcp_dooptions 填 写 数 据 
图 10-16 给 出 了 to_flag 字 段 可 以 组 合 出 的 4 个 值 。 


TOF CC CC 选项 存在 


TOF CCNEW CCnew 选 项 存在 
TOF CCECHO | CCecho 选 项 存在 
TOF TS Es [8] RUGATE 





图 10-16 to flag 的 取 值 


图 10-17 给 出 了 这 个 函数 的 参数 说 明 。 前 4 个 参数 与 Net/3 中 的 相同 ， 但 第 5 个 参数 赫 换 了 
Net/3 版 本 中 的 最 后 3 个 参数 。 


a tcp_input.c 
1521 tcp dooptions(tp, cp, cnt, ti, to) 

1522 struct tcpcb *tp; 

1523 u char *cp; 

1524 int ent: 

1525 struct tcpiphdr *ti; 

1526 struct tcpopt *to; 


1527 { " 
tcp input.c 


图 10-17 tcp dooptionstE: 参数 


因为 处 理 EOL、NOP、MSS、 窗 口 宽度 和 时 间 惟 选项 的 代码 与 卷 2 第 745~747 页 的 代码 几 
乎 相同 ， 所 以 这 里 不 再 重复 介绍 (差别 主要 在 于 对 新 参数 的 处 理 ， 我 们 刚刚 讨论 过 )。 图 10-18 
给 出 了 这 个 函数 的 最 后 一 部 分 代码 ， 它 们 用 于 T/TCP 处 理 3 个 新 的 选项 。 

1. 检查 长 度 和 是 否 处 理 选项 
1580-1584 ”选项 长 度 要 验证 (所 有 3 个 CC 选项 的 长 度 必须 都 是 6)。 处 理 接 收 到 的 CC 选项 时 ， 
我 们 也 必须 发 送 相应 选项 (如 果 内 核 的 tL-cp_do_rfc1l644 标 志 已 经 设置 , 则 tcp_ 
newtcpcb 要 设置 TF_REQ_CC 标 志 )， 并 且 TF_NOOPT 标 志 不 能 设置 (最 后 这 个 标志 不 允许 
TCP 在 其 SYN 中 发 送 任 何 选 项 )。 
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2. 设置 相应 标志 并 复制 4 字 节 值 
1585-1588 设置 相应 的 to_flag 值 。 四 个 字 节 的 选项 值 存储 在 tcpopt 结 构 的 to_cc 字 段 
中 ， 并 且 要 先 转换 成 主机 的 字 节 顺序 。 
1589-1595 如果 这 是 一 个 SYN 报 文 段 ， 要 为 该 连接 设置 TF_RCVD_Cc 标 志 ， 因 为 收 到 了 
CC 选项 。 

3. CCnew 和 CCecho 选 项 
1596-1623 CCnew 和 CCecho 选 项 的 处 理 步 骤 与 CC 选项 的 相似 。 但 因为 CCnew 和 CCecho 选 
项 仅 在 SYN 报 文 段 中 有 效 ， 所 以 要 附加 一 项 检测 ， 检 查 报 文 段 中 是 否 包含 SYN 标 志 。 


尽管 TOF CCNEW 标 志 都 有 正确 设置 但 从 来 不 去 检查 它 。 这 是 因为 在 图 11-6 中 ， 

如 果 CC 选 项 不 存在 ， 则 缓存 的 CC 值 是 无 效 的 ( 即 需 设置 为 0)。 如 果 存 在 CCnew 选 项 ， 

则 cc_recv 仍 然 有 正确 设置 (注意 ， 在 图 10-18 中 ，CC 和 CCnew 选 项 都 在 to_cc 中 存 

储 其 值 )， 并 且 当 三 次 握手 完成 时 (图 11-14)， 所 缓存 的 值 tao cc 是 从 cc recv 中 复 

制 过 来 的 。 

4. 处 理 收 到 的 MSS 
1625-1626 局 部 变量 mss 记 录 的 或 者 是 MSS 选 项 的 值 (如 果 选 项 存在 )， 或 者 是 表示 选项 不 
存在 的 0 值 。 在 这 两 种 情况 下 ，tcp_mssrcvd 都 要 设置 变量 t maxseg 和 t _maxopd 的 值 ，。 
在 tcp_dooptions 快 结束 时 要 调用 该 函数 ， 因 为 如 图 10-13 所 示 ，tcp_mssrcvd 使 用 了 
TF RCVD TSTMP 和 TF RCVD CC 标志 。 


10.10 tcp reass 函 数 


当 服 务 器 收 到 包含 数据 的 SYN 时 ， 假 定 TAO 测 试 失 败 或 报 文 段 中 不 包含 CC 选项 ， 那 么 
tcp_input 就 将 数据 存 和 人 缓存 队列 ， 等 待 三 次 握手 过 程 的 完成 。 在 图 11-6 中 ， 协 议 的 状态 设 
置 为 SYN_RCVD， 程 序 有 一 个 分 支 trimthenstep6， 在 标号 为 4odata 的 程序 行 ( 卷 2 第 790 
页 )， 宏 TCP_REASS 发 现 协 议 状 态 不 是 ESTABLISHED， 因 此 调用 tcp_reass 将 报 文 段 存 人 
该 连接 的 失 序 报 文 队列 (其 中 的 数据 并 非 真 的 失 序 ， 只 是 因为 它 是 在 三 次 握手 过 程 完成 之 前 到 
达 的 。 然 而 ， 卷 2 的 图 27-19 底 部 的 两 个 统计 计数 器 tcps_rcvoopack 和 tcps_rcvoobyte 
的 累进 是 不 正确 的 )。 


tcp. input.c 
1580 case TCPOPT CC: 
1581 if (optlen != TCPOLEN CC) 
1582 continue; 
1583 if ((tp-»t flags & (TF REQ CC | TF NOOPT)) !- TF REQ CC) 
1584 continue; /* we're not sending CC opts */ 
1585 to-»to flag |= TOF CC; 
1586 bcopy((char *) cp + 2, (char *) &to-»to cc, 
1587 sizeof(to-»to cc)); 
1588 NTOHL(to-»to cc); 
1589 )* 
1590 * A CC or CCnew option received in a SYN makes 
1591 * it OK to send CC in subsequent segments. 
1592 aa 
1593 if (ti->ti_flags & TH_SYN) 
1594 tp->t_flags |= TF_RCVD_CC; 


图 10-18 tcp_dooptions 国 数 : 新 T/TCP 选 项 的 处 理 
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1595 break; 

1596 case TCPOPT CCNEW: 

1597 if (optlen !- TCPOLEN CC) 

1598 continue; 

1599 if ((tp-»t flags & (TF REQ CC | TF NOOPT)) !- TF REQ CC) 
1600 continue; /* we're not sending CC opts */ 
1601 if (!(ti-»ti flags & TH SYN)) 

1602 continue; 

1603 to-»to flag |= TOF CCNEW; 

1604 bcopy((char *) cp + 2, (char *) &to-»to cc, 
1605 sizeof(to-»5to cc)); 

1606 NTOHL (to-»to cc); 

1607 A 

1608 * A CC or CCnew option received in a SYN makes 
1609 * it OK to send CC in subsequent segments. 
1610 xf 

1611 tp-»t flags |= TF RCVD CC; 

1612 break; i 

1613 case TCPOPT_CCECHO: 

1614 if (optlen != TCPOLEN_CC) 

1615 continue; 

1616 if (!(ti->ti_flags & TH SYN)) 

1617 continue; 

1618 to-»to flag |= TOF CCECHO; 

1619 bcopy((char *) cp + 2, (char *) &to-»to ccecho, 
1620 sizeof(to-»to ccecho)); 

1621 NTOHL(to-»to ccecho); 

1622 break; 

1623 ) 

1624 ) 

1625 if (ti-»ti flags & TH SYN) 

1626 tcp mssrcvd(tp, mss); /* sets t maxseg */ 

1627 ) 


tcp input.c 
图 10-18 (fX) 


当 对 服务 器 所 发 的 SYN 的 ACK( 通 常 是 三 次 担 手中 的 第 三 个 报 文 段 ) 姗 姗 来 迟 时 ， 执 行 卷 2 
第 774 页 的 case TCPS_SYN_RECEIVED 语 句 ， 使 连接 进入 ESTABLISHED 状 态 ， 然 后 调用 
rcp_reass 函 数 将 队列 中 的 数据 交付 给 进程 ， 该 函数 第 二 个 参数 为 0。 但 在 图 11-14 中 ， 我 们 
会 看 到 ， 如 果 新 的 报 文 段 中 有 数据 ， 或 者 如 果 设 置 了 FIN 标 志 ， 就 跳 过 对 tcp_reass 函 数 的 
调用 ， 因 为 这 两 种 情况 的 任何 一 种 都 会 引起 对 标号 为 4odata 的 TCP_REASS 函 数 的 调用 。 问 
题 是 ， 如 果 新 的 报 文 段 完 全 与 以 前 的 报 文 段 重 复 ， 则 对 TCP_REASS 函 数 的 调用 不 会 强行 将 队 
列 中 的 数据 交付 给 进程 。 

修改 tcp_reass 国 数 只 需 做 很 小 的 改变 : 将 卷 2 第 729 页 的 第 106 行 的 zetuzan 改 为 执行 标 
号 为 present 的 分 支 。 


10.11 小 结 
给 定 主机 的 TAO 信 息 保 存在 路 由 表 的 记录 项 中 。 函 数 tcp_gettaocache 读 取 为 某 主机 


缓存 的 TAO 数 据 ， 但 如 果 在 PCB 的 路 由 缓存 中 尚 不 存在 相应 的 路 由 ， 则 调用 tcp_rt1lookup 
来 查找 主机 。 
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T/TCP 修 改 tcp_close 函 数 ， 在 路 由 表 中 为 TTTCP 连 接 保 存 两 个 估计 值 srtt 和 rttvar， 即 
使 连接 中 只 传送 了 不 到 16 个 满 长 度 的 报 文 段 。 这 样 就 使 与 该 主机 的 下 一 次 T/TCP 连 接 可 以 在 
开始 时 使 用 这 两 个 估计 值 (假设 路 由 表 记 录 项 在 下 一 次 连接 时 还 没有 超时 )。 

Net/3 的 函数 tcp_mss 在 T/TCP 中 分 成 了 两 个 函数 : tcp_mssrcvd 和 tcp_msssend。 
前 者 在 收 到 MSS 选 项 后 调用 ， 后 者 在 发 出 MSS 选 项 时 调用 。 后 者 与 通常 的 BSD 做 法 的 不 同 之 
处 在 于 ， 它 一 般 声 明 其 MSS 为 输出 接口 的 MTU 减 去 TCP 和 IP 首 部 的 长 度 。BSD 系 统 会 向 非 本 
地 对 等 主机 声明 取 值 为 512 的 MSS。 

Net/3 中 的 tcp_dooptions 国 数 在 T/TCP 中 也 有 改变 。 函 数 的 若干 个 参数 取消 了 ， 用 
一 个 结构 来 代替 。 这 就 使 国 数 可 以 处 理 新 的 选项 (例如 T/ATCP 新 增加 的 3 个 选项 )， 而 不 需 增 
加 参数 。 
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11.1 概述 


T/TCP 对 TCP 所 做 的 大 多 数 修改 是 在 tcp_input 函 数 中 。 在 整个 函数 的 前 前 后 
的 修改 是 tcp_dooptions(10.9 节 ) 中 新 增 的 变量 和 返回 值 。 我 们 不 打算 给 出 受 这 一 
响 的 每 一 块 代码 。 

图 11-1 是 卷 2 中 图 28-1 的 重 写 ，T/TCP 所 做 的 修改 用 黑体 字 表 示 。 

我 们 在 说 明 tcp_input 函数 所 做 的 修改 时 ， 按 照 各 部 分 在 整个 函数 中 出 现 
介绍 。 


void 
tcp input() 
f 
checksum TCP header and data; 
Skip over IP/TCP headers in mbuf; 
findpcb: 
locate PCB for segment; 
if (not found) 
goto dropwithreset; 


reset idle time to 0 and keepalive timer to 2 hours; 
process options if not LISTEN state; 


if (packet matched by header prediction) ( 
completely process received segment; 
return; 


} 


switch (tp->t_state) { 

case TCPS_LISTEN: 
if SYN flag set, accept new connection request; 
perform TAO test; 
goto trimthenstepó; 


case TCPS SYN SENT: 

check CCecho option; 

if ACK of our SYN, connection completed; 
trimthenstepó: 

trim any data not within window; 

if (ACK flag set) 

goto processack; 
goto stepó6; 


case TCPS LAST ACK: 
case TCPS CLOSING: 
case TCPS TIME WAIT: 
check for new SYN as implied ACK of previous incarnation; 
} 


图 11-1 TCP 输 入 处 理 步 又 小 结 : T/TCP 所 做 的 修改 用 黑体 表示 


后 都 出 现 
变化 而 影 


序 来 分 别 
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process RFC 1323 timestamp; 
check CC option; 
check if some data bytes are within the receive window; 


trim data segment to fit within window; 


if (RST flag set) { 
process depending on state; 
goto drop; 

} 


if (ACK flag off) 
if (SYN RCVD || half-synchronized) 
goto step6; 
else 
goto drop; 


if (ACK flag set) ( 
if (SYN RCVD state) 
passive open or simultaneous open complete; 
if (duplicate ACK) 
fast recovery algorithm; 
processack: 
update RTT estimators if segment timed; 
if (no data was ACKed) 
goto step6; 
open congestion window; 
remove ACKed data from send buffer; 
change state if in FIN WAIT 1, CLOSING, or LAST ACK state; 


J 


stepó: 
update window information; 


process URG flag; 


dodata: 
process data in segment, add to reassembly queue; 


if (FIN flag is set) 
process depending on state; 


if (SO DEBUG socket option) 
tcp trace(TA INPUT); 


if (need output [|| ACK now) 
tcp output(); 
return; ] 


dropafterack: 
tcp output() to generate ACK; 
return; 


dropwithreset: 
tcp respond() to generate RST; 
return; 


drop: 
if (SO DEBUG socket option) 
tcp trace(TA DROP); 
return; 





图 11-1 (X) 
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11.2 预 处 理 


定义 了 三 个 新 的 自动 变量 ， 其 中 之 一 是 tcpopt 结 构 ， 在 tcp_dooptions 中 使 用 。 下 面 
的 几 行 语句 用 于 替换 卷 2 第 739 页 的 第 190 行 。 
struct tcpopt to; /* options in this segment */ 


struct rmxp tao *taop; /* pointer to our TAO cache entry */ 
struct rmxp tao tao noncached; /* in case there's no cached entry */ 


bzero((char *)&to, sizeof(to)); 
tcpstat.tcps rcvtotal-**; 


将 Ecpopt 结 构 初始 化 为 0 是 非常 重要 的 : 这 样 就 会 将 to_cc 字 段 (接收 到 的 CC 值 ) 设 置 为 
0， 表 明 它 未 定义 。 

在 Net/3 中 ， 唯 一 回 到 标号 findpcb 的 分 支 是 在 一 个 连接 处 于 TIME_WAIT 状 态 时 又 收 到 
一 个 新 的 SYN 报 文 段 ( 卷 2 第 765~766 页 )。 因 为 下 面 的 这 两 行 代码 有 问题 ， 所 以 该 分 支 存在 一 
个 缺陷 : l 


m-»m data += sizeof (struct tcpiphdr) + off - sizeof(struct tcphdr); 
m-»m len -= sizeof(struct tcpiphdr) + off - sizeof(struct tcphádr); 


这 两 行 代码 在 findpcb 后 出 现 了 两 次 ， 在 gotoe 后 又 执行 了 一 次 (这 两 行 代码 在 卷 2 第 751 页 出 
现 了 一 次 ， 在 第 752 页 又 出 现 一 次 ; 这 两 处 中 只 能 有 一 处 执行 ， 决 定 于 该 报 文 段 是 否 与 首部 所 
指示 的 相 一 致 )。 这 在 T/TCP 之 前 并 不 会 带 来 问题 ， 因 为 SYN 不 携带 数据 ， 上 述 这 个 缺陷 只 在 
当 一 个 连接 处 于 TIME_WAIT 状 态 又 收 到 一 个 携带 数据 的 新 SYN 时 才 会 表现 出 来 。 然 而 在 
T/TCP 中 ， 还 会 有 第 2 个 回 到 £indpcb 的 分 支 ( 在 后 面 的 图 11-11 中 会 说 明 ， 这 个 分 支 处 理 图 4-7 
所 示 的 隐 式 ACK)， 并 且 要 处 理 的 SYN 很 可 能 携带 数据 。 这 样 ， 在 findpcb 之 前 的 上 述 这 两 
行 代码 就 必须 删 去 ， 如 图 11-2 所 示 。 


Ur 有 tcp input.c 

275 * Skip over TCP, IP headers, and TCP options in mbuf. 

276 * optp & ti still point into TCP header, but that's OK. 

277 * 

278 m-»m data += sizeof(struct tcpiphdr) + off - sizeof(struct tcphdr); 

279 m-»m len -= sizeof(struct tcpiphdr) + off - sizeof(struct tcphdr); 

280 g” 

281 * Locate pcb for segment. 

282 a7 

283 findpcb: E 
tcp_input.c 


图 11-2 tcp input; 在 fijndpcb 前 修改 mbuf 指 针 和 长 度 

这 样 就 从 卷 2 的 第 751 页 和 第 752 页 中 删除 上 述 的 两 行 。 

下 一 个 修改 位 于 卷 2 第 744 页 的 第 327 行 ， 这 段 代码 在 一 个 新 报 文 段 到 达 监 听 插 口 时 创建 一 
个 新 插口 。 在 +t_state 设 置 为 TCPS_LISTEN 以 后 ，TEF_NOPUSH 和 TF_NOOPT 这 两 个 标志 必 
须 从 监听 插口 复制 到 新 的 插口 : 

tp->t_flags |= tp0->t_flags & (TF NOPUSH|TF. NOOPT); 


其 中 tp0 是 指向 监听 插口 tcpcb 的 自动 变量 。 
卷 2 第 745 页 的 第 344~345 行 中 对 tcp_dooptions 的 调用 要 改 为 新 的 调用 序列 (10.9 节 ): 
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if (optp && tp-»t state !- TCPS LISTEN) 
tcp dooptions(tp, optp, optlen, ti, &to); 


11.3 首部 预测 


是 否 应 用 首部 预测 ( 卷 2 第 748 页 ) 的 第 一 项 测试 是 检查 隐藏 状态 标志 是 否 关 闭 。 如 果 这 些 标 
志 中 有 任何 一 个 处 于 打开 状态 ， 则 需要 用 上 cp_input 中 的 慢 通道 处 理 将 其 关闭 。 图 11-3 给 出 
了 新 的 测试 过 程 。 


- tcp_input.c 
398 if (tp->t_state == TCPS ESTABLISHED && 
399 (tiflags & (TH SYN | TH FIN | TH RST | TH URG | TH ACK)) == TH ACK && 
400 ((tp-»t flags & (TF SENDSYN | TF SENDFIN)) == 0) && 
401 ((to.to flag & TOF TS) -- 0 || 
402 TSTMP GEQ(to.to tsval, tp-»ts recent)) && 
403 gw 
404 * Using the CC option is compulsory if once started: 
405 » the segment is OK if no T/TCP was negotiated or 
406 * if the segment has a CC option equal to CCrecv 
407 E271 
408 ((tp-»t. flags & (TF REQ CC | TF RCVD CC)) !- (TF REQ CC | TF RCVD CC) || 
409 (to.to flag & TOF CC) !- 0 && to.to cc == tp-»cc recv) && 
410 ti-»ti seq == tp-»rcv nxt && 
411 tiwin && tiwin == tp-»snd wnd && 
412 tp-»snd nxt == tp-»snd max) ( 
413 y * 
414 * If last ACK falls within this segment's sequence numbers, 
415 * record the timestamp. 
416 * NOTE that the test is modified according to the latest 
417 * proposal of the tcplwécray.com list (Braden 1993/04/26). 
418 "f 
419 if ((to.to flag & TOF TS) !- 0 && 
420 SEQ LEQ(ti-»ti seq, tp-»last ack sent)) ( 
421 tp-»ts recent age = tcp now; 
422 tp-»ts recent = to.to tsval; 
423 ) , 

tcp input.c 


图 11-3 tcp input: 是 否 可 以 应 用 首部 预测 


1. 验证 隐藏 状态 标志 关闭 
400 这 里 的 第 一 项 修改 就 是 验证 TF_SENDSYN 和 TF_SENDFIN 标 志 是 否 同 时 处 于 关闭 状态 。 

2. 检查 时 间 戳 选项 (如 果 存 在 ) 
401-402 第 2 项 修改 与 修改 后 的 ktcp_dooptions 国 数 有 关 的 是 : 不 再 测试 ts_pPresent， 
而 是 测试 te_flag 中 的 TOF_TS 标 志 位 ， 并 且 如 果 时 间 惟 存在 ， 它 的 值 是 在 ko_tsval 而 不 
是 ts_val 中 。 

3. 如 果 使 用 T/TCP， 就 验证 CC 
403-409 最 后 ， 如 果 没 有 完成 TVTCP 协 商 (我 们 要 求 有 CC 选项 ， 但 另 一 端 没 有 发 送 ， 或 者 我 
们 根本 就 没有 要 求 )， 则 if 测 试 继续 进行 。 如 果 使 用 了 T/TCP， 则 接收 到 的 报 文 段 必 须 包 含 一 
个 CC 选项 ， 且 CC 值 必须 等 于 cc_recv 值 ， 这 样 才 继续 进行 jf 测试。 

我 们 希望 在 简短 的 T/TCP 事 务 中 不 要 频繁 使 用 首部 预测 。 因 为 在 一 次 最 小 的 T/TCP 报 文 段 
交换 中 ， 基 最初 的 两 个 报 文 段 携带 有 控制 标志 (SYN 和 FIN)， 这 会 使 图 11-3 中 在 第 二 项 测试 失 
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败 。 这 些 T/TCP 报 文 段 用 tcp_input 的 慢 通 道 进 行 处 理 。 但 是 ， 在 支持 T/TCP 的 两 个 主机 之 
间 的 长 连接 (例如 成 批 的 数据 传送 ) 可 以 使 用 CC 选项 ， 并 从 首部 预测 中 获 益 。 

4. 用 接收 到 的 时 间 戳 更 新 ts_recent 
413-423 ts_recent 是 否 因 该 更 新 的 测试 与 卷 2 第 748 页 的 第 371~372 行 有 所 不 同 。 图 11-3 
中 采用 新 测试 代码 的 原因 在 卷 2 第 694~695 页 有 详细 叙述 。 


11.4 被 动 打 开 的 启动 


我 们 现在 替换 掉 卷 2 第 755 页 的 全 部 代码 : 处 于 LISTEN 状 态 的 插口 处 理 所 收 到 的 
SYN 的 代码 的 最 后 一 部 分 。 这 是 当 服 务 器 从 一 个 客户 端 接收 到 一 个 SYN 时 被 动 打开 的 
启动 (我 们 不 想 重复 卷 2 第 753~754 页 中 在 该 状态 下 进行 初始 化 的 代码 )。 图 11-4 给 出 了 这 段 
代码 的 第 一 部 分 。 


tcp_input.c 

545 tp->t_template = tcp template(tp); 

546 if (tp->t_template == 0) { 

547 tp = tcp drop(tp, ENOBUFS); 

548 i dropsocket = 0; /* socket is already gone */ 

549 goto drop; 

550 } 

S551 if ((taop = tcp_gettaocache (inp)) == NULL) { 

552 taop - &tao noncached; 

553 bzero(taop, sizeof(*taop)); 

554 ) 

555 if (optp) 

556 tcp dooptions(tp, optp, optlen, ti, &to); 

557 if (iss) 

558 tp-»iss - iss; 

559 else 

560 tp-»iss = tcp iss; 

561 tcp iss += TCP ISSINCR / 4; 

562 tp-»irs = ti-»ti seq; 

563 tcp sendseqinit(tp); 

564 tcp rcvseginit(tp); 

565 /* 

566 * Initialization of the tcpcb for transaction: 

567 x set SND.WND - SEG.WND, 

568 * initialize CCsend and CCrecv. 

569 */ 

570 tp-»snd wnd = tiwin; /* initial send-window */ 

571 tp-»cc send - CC INC(tcp ccgen); 

572 tp-»cc recv = to.to cc; r 
tcp_input.c 


图 11-4 tcp_input: 取 TAO 记 录 项 ， 初 始 化 事务 的 控制 块 


1. 取 客 户 端的 TAO 记录 项 
551-554 tcp_gettaocache 查 找 该 客户 端的 TAO 记录 项 。 如 果 没 有 找到 ， 在 全 部 设置 为 
0 后 使 用 自动 变量 。 

2. 处 理 选 项 和 初始 化 序号 
555-564 tcp_dooptions 处 理 所 有 的 选项 (由 于 连接 处 于 LISTEN 状 态 ， 这 个 函数 在 此 之 
前 是 不 会 调用 的 )。 初 始 化 发 送 序 号 (iss) 和 初始 接收 序号 (irs)。 控 制 块 中 的 所 有 序号 变量 都 
由 tcp_sendseqinit 和 tcp_rcvseqinit 进 行 初 始 化 。 
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3. 更 新 发 送 窗 
565-570 tiwin 是 在 接收 到 的 SYN 中 由 客户 端 通告 的 窗口 ( 卷 2 第 742~743 页 )。 它 是 新 插口 
的 初始 化 发 送 窗口 。 通 常 ， 发 送 窗口 要 一 直 等 到 收 到 了 一 个 带 有 ACK 的 报 文 段 才 会 更 新 ( 卷 2 
第 785 页 )。 但 T/TCP 要 利用 所 收 到 的 SYN 报 文 段 中 的 发 送 窗口 值 ， 即 使 这 个 报 文 段 不 包含 
ACK。 这 个 窗口 影响 到 服务 器 端 给 出 应 答 时 可 以 立即 发 送 给 客户 端的 数据 有 多 少 (T/TCP 交 换 
中 最 小 三 报 文 段 的 第 2 个 报 文 段 )。 

4. 设置 cc_send 和 cc_recv 
571-572 cc_send 设 置 为 ccp_ccgen 的 值 , 并 且 如 果 CC 选 项 存在 , 则 cc_recv 设 置 为 CC 值 。 
如 果 CC 选 项 不 存在 ， 因 为 在 函数 的 一 开始 已 经 将 to 初始 化 为 0， 所 以 cc_recv 也 是 0( 未 定义 )。 

图 11-5 对 收 到 的 报 文 段 执 行 TAO 视 试 。 

5. 执行 TAO 测 试 
573-587 仅仅 在 报 文 段 中 包含 有 CC 选项 时 才 进 行 TAO 测 试 。 如 果 接 收 到 的 CC 值 非 0 且 大 于 
该 客户 端的 缓存 值 (tac_cc)， 则 TAO 测试 成 功 。 

6. TAO 测试 成 功 ; 更 新 客户 端的 TAO 缓存 
588-594 对 这 个 客户 端的 缓存 值 进行 更 新 ， 并 且 将 连接 状态 设置 为 ESTABLISHED*( 隐 藏 状 
态 变 量 在 稍 后 的 几 行 中 设置 ， 使 之 成 为 半 同 步 加 星 状态 )。 

7. 决定 是 否 延 迟 发 送 ACK 
595-606 ”如 果 报 文 段 中 包含 FIN， 或 者 如 果 报 文 段 中 包含 数据 ， 那 么 客户 端 应 用 程序 必须 按 使 用 
T/TCP 来 编程 ( 即 调用 sendto， 并 指定 MSG_EOF， 在 此 之 前 不 能 调用 connect、write 和 
shutdown)。 在 这 种 情况 下 ，ACK 要 延迟 发 送 ， 以 便 让 服务 器 的 应 答 来 朱 带 服务 器 给 出 的 
SYN/ACK, 


m E Icp. input.c 
574 * Perform TAO test on incoming CC (SEG.CC) option, if any. 
575 * — compare SEG.CC against cached CC from the same host, 

576 * if any. f 

577 * - if SEG.CC » cached value, SYN must be new and is accepted 
578 * immediately: save new CC in the cache, mark the socket 
579 * connected, enter ESTABLISHED state, turn on flag to 

580 * send a SYN in the next segment. 

581 * A virtual advertised window is set in rcv adv to 

582 * initialize SWS prevention. Then enter normal segment 

583 * processing: drop SYN, process data and FIN. 

584 * - otherwise do a normal 3-way handshake. 

585 x7 

586 if ((to.to_flag & TOF_CC) != 0) { 

587 if (taop->tao_cc != 0 && CC_GT(to.to_cc, taop->tao_cc)) { 
588 p* 

589 * There was a CC option on the received SYN 

590 * and the TAO test succeeded. 

591 * f 

592 tcpstat.tcps taook**; 

593 taop-»tao cc = to.to cc; 

594 tp-»t state = TCPS ESTABLISHED; 

595 p* 

596 * If there is a FIN, or if there is data and the 

597 * connection is local, then delay SYN,ACK(SYN) in 


图 11-5 tcp input: 对 收 到 的 报 文 段 执 行 TAO 测 试 
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598 * the hope of piggybacking it on a response 

599 ; * segment. Otherwise must send ACK now in case 
600 * the other side is slow starting. 

601 w 

602 if ((tiflags & TH FIN) || 

603 (ti-»ti len !- 0 && in localaddr(inp-»inp. faddr))) 
604 tp-»t flags |= (TF DELACK | TF SENDSYN); 

605 else 

606 tp-»t flags |= (TF ACKNOW | TF SENDSYN); 

607 tp-»rcv adv += tp-»rcv wnd; 

608 tcpstat.tcps connects-**; 

609 soisconnected(so); 

610 tp-»t timer[TCPT KEEP] = TCPTV KEEP INIT; 

611 dropsocket - 0; /* committed to socket */ 
612 tcpstat.tcps accepts-*; 

613 goto trimthenstep6; 

614 ) else if (taop-»tao cc !- 0) 

615 tcpstat.tcps taofail-«*; 


tcp input.c 
11-5 (4%) 


如 果 FIN 标 志 未 设置 , 但 是 报 文 段 中 包含 数据 , 那么 由 于 报 文 段 中 同时 也 包含 了 SYN 标 志 ， 
这 很 有 可 能 是 客户 端 发 来 的 多 报 文 段 数据 中 的 第 一 段 。 在 这 种 情况 下 ， 如 果 客 户 端 不 在 本 
地 子 网 中 (in_localaddzr 国 数 返回 的 是 0)， 这 时 因为 客户 端 可 能 处 于 慢 启 动 状态 ， 确 认 不 
再 延迟 。 

8. 设置 rcv_adv 
607 rcv_adv 定 义 为 所 接收 通告 的 最 高 序列 号 加 1( 卷 2 的 图 24-28)， 但 是 在 图 11-4 中 的 宏 
tcp_rcvseqinit 将 其 初始 化 为 接收 序列 号 加 1。 在 这 个 处 理 点 上 ，rcv_wnd 将 是 插口 接 
收 缓存 的 大 小 ( 卷 2 第 752 页 )。 这 样 ， 将 rcv_wnd 加 到 rcv_adv 以 后 ， 后 者 刚好 超出 当前 的 
接收 窗口 。rcv_adv 必 须 在 这 里 进行 初始 化 ， 因 为 它 的 值 要 用 在 tcp_output 的 糊涂 窗口 
避免 机 制 中 ( 卷 2 第 700 页 )。rcv_adv 在 tcp_output 快 结束 时 设置 ， 通 常 是 在 发 送 第 一 个 
报 文 段 时 (在 这 里 应 该 是 服务 器 对 客户 端 SYN 的 响应 SYN/ACK)。 但 是 在 T/TCP 中 ， 
rcv_adv 需 要 在 tcp_output 中 进行 第 一 次 设置 ， 因 为 我 们 可 能 在 所 发 送 的 第 一 个 报 文 段 
中 发 送 数 据 。 

9. 完成 连接 
608-609 递增 tcps_connects 和 调用 soisconnected 通 常 是 在 接收 到 三 次 握手 中 的 第 
三 个 报 文 段 时 进行 的 ( 卷 2 第 774 页 )。 既 然 连接 已 经 完成 ， 在 TITCP 中 这 时 就 执行 这 两 个 步骤 。 
610-613 连接 建立 定时 器 设置 为 715 秒 ，dropsocked 标 志 设 置 为 0， 增 加 了 标签 为 
trimthenstep6 的 分 支 。 

图 11-6 给 出 了 在 LISTEN 状 态 的 插口 收 到 一 个 SYN 时 的 其 余 处 理 代码 。 


tcp_input.c 
616 ) else ( 
617 g* 
618 * No CC option, but maybe CCnew: 
619 * invalidate cached value. 
620 ai 
621 taop->tao_cc = 0; 
622 } 


图 11-6 tcp input; LISTEN 处 理 : 没有 CC 选项 或 TAO 测试 失败 
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623 gx 

624 * TAO test failed or there was no CC option, 
625 * do a standard 3-way handshake. 

626 f 

627 tp-»t flags |= TF ACKNOW; 

628 tp-»t state = TCPS SYN RECEIVED; 

629 tp-»t timer[TCPT KEEP] = TCPTV KEEP INIT; 

630 dropsocket - 0; /* committed to socket */ 
631 tcpstat.tcps accepts-*-*; 

632 goto trimthenstep6; 

633 ) 


tcp input.c 
图 11-6 (53) 


10. 无 CC 选项 ; 缓存 设置 为 CC 未 定义 
612-622 当 CC 选 项 不 存在 时 ， 执 行 else 语 名 (图 11-5 的 第 一 个 iE 语 名 在)。 缓 存 中 的 CC 值 
设置 为 0( 即 未 定义 )。 如 果 该 段 程序 中 发 现 报 文 段 中 含有 CCnew 选 项 ， 则 当 三 次 担 手 过 程 完 成 
以 后 要 更 新 缓存 的 CC 值 (图 11-14)。 

11. 要 求 执行 三 次 握手 
623-633 执行 到 这 一 点 ， 要 么 报 文 段 中 没有 CC 选项 ， 要 么 有 CC 选项 但 TAO 测试 失败 。 在 
任何 一 种 情况 下 ， 都 要 求 执行 三 次 握手 过 程 。 剩 余 的 代码 行 与 卷 2 中 图 28-17 的 最 后 部 分 完全 
一 样 : 设置 TF_ACKNOW 标 志 ， 状 态 设 置 为 SYN_RCVD 状 态 ， 这 样 就 会 立即 发 送 SYN/ACK。 


11.5 主动 打开 的 启动 


下 一 个 case 是 SYN_SENT 状 态 。TCP 先 前 发 送 过 一 个 SYN( 一 次 主动 打开 )， 现在 是 处 理 
服务 器 的 应 答 。 图 11-7 给 出 了 处 理 程序 的 第 一 部 分 。 相 应 的 Net/3 代 码 从 卷 2 第 757 页 开始 。 


ai z tcp_input.c 
635 * If the state is SYN_SENT: . 

636 * if seg contains an ACK, but not for our SYN, drop the input. 
637 * if seg contains a RST, then drop the connection. 

638 * if seg does not contain SYN, then drop it. 

639 * Otherwise this is an acceptable SYN segment 

640 * initialize tp-»rcv nxt and tp-»irs 

641 * if seg contains ack then advance tp-»snd una 

642 * if SYN has been acked change to ESTABLISHED else SYN RCVD state 
643 * arrange for segment to be acked (eventually) 

644 * continue processing rest of data/controls, beginning with URG 
645 *y 

646 case TCPS SYN SENT: 

647 if ((taop = tcp gettaocache(inp)) -- NULL) ( 

648 taop - &tao noncached; 

649 bzero(taop, sizeof(*taop)); 

650 ) 

651 if ((tiflags & TH ACK) && 

652 (SEQ LEQ(ti-»ti ack, tp-»iss) || 

653 SEQ GT(ti-»ti ack, tp-»snd max))) ( 

654 yix 

655 * If we have a cached CCsent for the remote host, 

656 * hence we haven't just crashed and restarted, 

657 * do not send a RST. This may be a retransmission 


图 11-7 tep input; 在 SYN_SENT 状 态 的 初始 处 理 
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658 * from the other side after our earlier ACK was lost. 

659 3 * Our new SYN, when it arrives, will serve as the 

660 * needed ACK. 

661 */ 

662 if (taop-»tao ccsent !- 0) 

663 goto drop; 

664 else 

665 goto dropwithreset; 

666 ) 

667 if (tiflags & TH RST) ( 

668 if (tiflags & TH ACK) 

669 tp = tcp drop(tp, ECONNREFUSED); 

670 goto drop; 

671 ) 

672 if ((tiflags & TH SYN) -- 0) 

673 goto drop; 

674 tp-»snd wnd = ti-»ti win; /* initial send window */ 

675 tp-»cc recv = to.to cc; /* foreign CC */ 

676 tp-»irs = ti-»ti seq; 

677 tcp rcvseginit(tp); . 

- tcp_input.c 
图 11-7 ( 续 ) 
1. 取 TAO 缓 存 记录 项 
647-650 取 该 服务 器 的 TAO 缓存 记录 项 。 因 为 我 们 最 近 刚 刚 发 送 过 SYN， 应 该 有 一 个 记录 项 。 

2. 处 理 不 正确 的 ACK 


651-666 如 果 报 文 段 中 包含 有 ACK， 但 是 其 确认 字段 不 正确 ( 见 卷 2 中 图 28-19 对 进行 比较 的 
几 个 字段 的 叙述 ) ， 我 们 的 应 答 就 依赖 于 是 否 已 经 为 该 主机 缓存 了 tao_ccsent。 如 果 
cc_cesent 非 0， 则 丢弃 该 报 文 段 ， 而 不 发 送 RST。 这 个 处 理 步 又 的 代码 段 在 图 4-7 中 的 标号 
为 “discard” 处 。 但 如 果 tao_ccsent 为 0， 我 们 丢弃 该 报 文 恨 ， 并 发 送 RST， 这 是 在 该 状态 
下 对 不 正确 ACK 的 正常 TCP 响 应 。 

3. 检查 RST 
667-671 ”如果 接收 到 的 报 文 段 中 设置 了 RST 标 志 ， 则 丢弃 报 文 段 。 另 外 ， 如 果 设 置 了 ACK 
东 志 ， 则 说 明 服 务 器 的 TCP 主 动 拒绝 连接 ， 并 将 ECONNREFUSED 错 误 返 回 给 调用 进程 。 

4. 必须 设置 SYN 
672-673 如 果 SYN 标 志 没 有 设置 ， 则 丢弃 报 文 段 。 
674-677 初始 发 送 窗 口 设置 为 报 文 段 中 通告 的 窗口 宽度 ， 并 将 cc_recv 设 置 为 接收 到 的 CC 
值 (如 果 CC 选 项 不 存在 ， 就 为 0)。irs 是 初始 接收 序号 ， 宏 tcp_rcvseqinit 对 控制 块 中 的 
接收 变量 进行 初始 化 。 

代码 中 现在 开始 出 现 分 支 ， 决 定 于 是 否 报 文 段 中 包含 一 个 对 所 发 SYN 的 确认 ACK( 通 常 
情况 下 )， 或 者 是 否 ACK 标 志 设 有 打开 (双方 同时 进行 打开 的 情况 较 少 发 生 )。 图 11-8 给 出 了 
通常 的 情况 。 


tcp input.c 
678 if (tiflags & TH ACK) ( 
679 yE 
680 * Our SYN was acked. If segment contains CCecho 
681 * option, check it to make sure this segment really 


图 11-8 tcp input: 在 SYN_SENT 状 态 处 理 SYN/ACK 响 应 
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682 * matches our SYN. If not, just drop it as old 

683 * duplicate, but send an RST if we're still playing 

684 * by the old rules. 

685 Wy 

686 if ((to.to flag & TOF CCECHO) && 

687 tp-»cc send !- to.to ccecho) ( 

688 if (taop-»tao ccsent !- 0) ( 

689 tcpstat.tcps badccecho-*-; 

690 goto drop; 

691 ) else 

692 goto dropwithreset; 

693 ) 

694 tcpstat.tcps connects-*-*; 

695 soisconnected(so); 

696 /* Do window scaling on this connection? */ 

697 if ((tp-»t flags & (TF RCVD SCALE | TF_REQ_SCALE)) == 

698 (TF RCVD SCALE | TF REQ SCALE)) ( 

699 tp-»snd scale = tp-»requested s scale; 

700 tp-»rcv scale = tp-»request r scale; 

701 } 

702 /* Segment is acceptable, update cache if undefined. */ 

703 if (taop-»tao ccsent == 0) 

704 taop-»5tao ccsent = to.to ccecho; 

705 tp-»rcv adv += tp-»rcv wnd; 

706 tp-»snd una**; /* SYN is acked */ 

707 [* 

708 * If there's data, delay ACK; if there's also a FIN 

709 * ACKNOW will be turned on later. 

710 Ey 

711. if (ti-»ti len !- 0) 

712 tp-»t flags |= TF DELACK; 

713 else 

714 tp-»t flags |- TF ACKNOW; 

735 /* 

716 * Received «SYN,ACK» in SYN SENT[*] state. 

717 * Transitions: 

718 * SYN SENT -=-> ESTABLISHED 

719 * SYN SENT* --» FIN WAIT 1 

720 X 2 

721 if (tp-»t flags & TF SENDFIN) ( 

722 tp-»t state = TCPS FIN WAIT 1; 

723 tp-»t flags &- ^TF SENDFIN; 

724 tiflags &- ^TH SYN; 

725 ) else 

726 tp-»t state = TCPS ESTABLISHED; 3 

tcp input.c 
图 11-8 (£X) 
5. ACK 标 志 是 打开 的 
678 ”如 果 ACK 标 志 处 于 开 的 状态 ， 我 们 从 图 11-7 中 的 ti_ack 测 试 可 以 知道 ，ACK 确 认 了 我 
们 的 SYN。 
6. 检查 CCecho 值 是 否 存 在 


679-693 如 果 报 文 段 中 包含 了 CCecho 选 项 ， 但 CCecho 的 值 与 我 们 发 出 的 不 相等 ， 则 丢弃 该 
报 文 段 (除非 另 一 端 发 生 故 障 ， 否 则 ， 因 为 已 经 收 到 了 对 所 发 SYN 的 ACK， 所 以 这 是 “ 决 不 应 
该 发 生 的 ”)。 如 果 我 们 并 没有 发 送 过 CC 选项 (tao_ccsent 为 0)， 那 么 就 要 发 送 RST。 
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7. 标记 插口 为 已 连接 和 处 理 窗口 宽度 选项 
694-701 插口 标记 为 已 经 建立 连接 ， 并 对 窗口 宽度 选项 进行 处 理 ( 如 果 存在 )。 


Bob Braden 的 T/TCP 实 现 有 和 错误， 不 应 在 测试 CCecho 值 之 前 就 执行 这 两 行 代码 。 


8. 如 果 未 定义 ， 则 更 新 TAO 缓存 
702-704 报 文 段 可 以 接受 ,这样 ， 如 果 这 个 服务 器 的 TAO 缓 存 还 没有 定义 (例如 客户 重新 启 
动 了 ， 或 发 送 了 一 个 CCnew 选 项 )， 我 们 就 用 接收 到 的 CCecho 值 (如 果 CCecho 选 项 不 存在 ， 它 
的 值 为 0) 对 其 进行 更 新 。 

9. 设置 zcv_adv 
705-706 更 新 fcv_adv， 如 图 11-4 所 示 。 在 发 出 的 SYN 得 到 确认 后 ，sna_una( 尚 未 确认 
的 最 小 序号 数据 ) 加 1。 

10. 确定 是 否 延迟 发 送 ACK 
707-714 ”如果 服务 器 在 其 SYN 中 发 送 数 据 ， 那 我 们 就 延迟 发 送 ACK; 否则 ， 立 即 发 出 
ACK( 因 为 这 很 可 能 是 三 次 握手 中 的 第 二 个 报 文 段 )。 延 迟 发 送 ACK 是 因为 ， 如 果 服 务 器 发 来 
的 SYN 中 包含 了 数据 ， 那 么 服务 器 很 可 能 正在 使 用 T/TCP， 这 样 就 很 可 能 还 会 接收 到 另外 的 
报 文 段 ， 其 中 包含 剩余 的 应 答 数 据 ， 这 时 就 没有 必要 立即 发 送 ACK。 但 如 果 这 个 报 文 段 中 同 
时 还 包含 有 服务 器 的 FIN( 最 小 的 三 报 文 段 TITCP 交 换 中 的 第 二 个 报 文 段 )， 图 11-18 中 的 代码 会 
打开 TF_ACKNOW 标 志 ， 以 便 立 即 发 送 ACK。 
715-726 我 们 知道 t_state 等 于 TCPS_SYN_SENT, 但 如 果 隐 藏 状态 标志 TF_SENDFIN 也 
是 打开 的 ， 我 们 的 状态 实际 上 是 SYN_SENT*。 在 这 种 情况 下 ， 我 们 的 状态 变迁 到 
FIN_WAIT_1 状 态 ( 如 果 看 看 RFC 1644 中 的 状态 变迁 图 就 可 以 看 出 ， 这 实际 上 是 两 个 状态 变迁 
的 组 合 。 在 SYN_SENT* 状 态 下 接收 到 SYN 就 变迁 到 FIN_WAIT_1* 状 态 ， 而 对 SYN 的 ACK 则 
变迁 到 FIN_WAIT_1 状 态 )。 

对 应 于 图 11-8 开 头 的 if 的 else 代 码 如 图 11-9 所 示 。 它 对 应 的 是 两 端 同时 打开 : 我 们 发 出 
了 一 个 SYN， 然 后 收 到 了 一 个 没有 ACK 的 SYN。 这 个 图 取代 了 卷 2 第 758 页 的 第 581~582 行 。 


727 ) else ( "LP 
728 /* 

729 * Simultaneous open. 

730 * Received initial SYN in SYN-SENT[*] state. 

7321 * If segment contains CC option and there is a 

732 * cached CC, apply TAO test; if it succeeds, 

733 * connection is half-synchronized. 

734 * Otherwise, do 3-way handshake: 

735 * SYN-SENT -» SYN-RECEIVED 

736 d SYN-SENT* -» SYN-RECEIVED* 

737 * If there was no CC option, clear cached CC value. 

738 SF 

739 tp->t_flags |= TF ACKNOW; 

740 tp-»t timer[TCPT REXMT] = 0; 

741 if (to.to flag & TOF CC) ( 

742 if (taop-»tao cc !- 0 && CC GT(to.to cc, taop-»tao cc)) ( 
743 j” 

744 * update cache and make transition: 

745 * SYN-SENT -» ESTABLISHED* 

746 * SYN-SENT* -> FIN-WAIT-1* 


11-9 tcp input; 同时 打开 
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747 +j 

748 tcpstat.tcps_taook++; 

749 taop->tao_cc = to.to cc; 

750 if (tp->t_flags & TF_SENDFIN) { 

751 tp-»t state = TCPS FIN WAIT 1; 
752 tp-»t flags &= ^TF SENDFIN; 

753 ) else 

754 tp-»t state = TCPS ESTABLISHED; 
755 tp-»t flags |- TF SENDSYN; 

756 ) else ( 

757 tp-»t state = TCPS SYN RECEIVED; 
758 if (taop-»tao cc !- 0) 

759 tcpstat.tcps taofail-*-*; 

760 ) 

761 ) else ( 

762 /* CCnew or no option -» invalidate cache */ 
763 taop-»tao cc = 0; 

764 tp-»t state = TCPS SYN RECEIVED; 

765 ) 

766 ) 


tcp input.c 
11-9 (8X) 


11. Y HIACK RD BEER fex RES 
739-740 立即 发 出 ACK， 并 且 关 闭 重 传 定时 器 。 尽 管 定时 器 被 关闭 ， 但 由 于 TF_ACKNOW 
示 志 是 设置 了 的 ， 在 tcp_input 快 结束 时 调用 tcp_output。 在 发 送 ACK 时 ， 因 为 至 少 有 
一 个 数据 字 节 (SYN) 已 经 发 出 且 未 得 到 确认 ， 重 新 启动 重 传 定时 器 。 

12. 执行 TAO 测 试 
741-755 如 果 报 文 段 中 包含 有 CC 选项 ， 那 么 就 要 执行 TAO 测 试 : 缓存 的 值 (tao_cc) 必 须 非 
0， 接 收 到 的 CC 值 必 须 大 于 缓存 中 的 值 。 如 果 通 过 了 TAO 测 试 ， 缓 存 的 值 就 要 用 接收 到 的 CC 
值 进行 更 新 ， 这 时 要 么 从 SYN_SENT 状 态 变迁 到 ESTABLISHED* 状 态 ， 要 么 从 SYN_SNET*# 状 
态 变 迁 到 FIN_WAIT_1* 状 态 。 ' 

13. TAO 测试 失败 或 没有 CC 选项 
756-765 如 果 TAO 测 试 失败 ， 新 的 状态 就 是 SYN_RCVD。 如 果 没 有 CC 选项 ， 则 TAO 缓存 
的 内 容 置 0( 未 定义 )， 新 的 状态 也 是 SYN_RCVD。 

图 11-10 给 出 了 标号 为 trimthenstep6 的 代码 段 ， 是 在 处 理 LISTEN 状 态 结束 时 的 一 个 
分 支 ( 见 图 11-5)。 这 个 图 中 的 大 部 分 代码 是 从 卷 2 第 759 页 复制 过 来 的 。 


767 trimthenstep6: iepinpulie 
768 p* 

769 * Advance ti-»ti seq to correspond to first data byte. 
770 * If data, trim to stay within window, 

771 * dropping FIN if necessary. 

772 *J 

713 ti-»ti seq**; 

774 if (ti-»ti len > tp-»rcv wnd) ( 

775 todrop = ti-»ti len - tp-»rcv wnd; 

776 m adj(m, -todrop); 

TIT ti->ti_len = tp->rcv_wnd; 

778 tiflags &= ^TH FIN; 


图 11-10 tcp input; 处 理 完 主动 或 被 动 打开 后 执行 的 tzimthenstep6 代 码 段 
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779 tcpstat.tcps  rcvpackafterwin-c*; 
780 . tcpstat.tcps rcvbyteafterwin += todrop; 
781 ) 
782 tp-»snd wll = ti-»ti seq - 1; 
783 tp-»rcv up = ti-»ti seq; 
784 gF 
785 * Client side of transaction: already sent SYN and data. 
786 * If the remote host used T/TCP to validate the SYN, 
787 * our data will be ACK'd; if so, enter normal data segment 
788 * processing in the middle of step 5, ack processing. 
789 * Otherwise, goto step 6. 
790 */ 
791 if (tiflags & TH ACK) 
792 goto processack; 
793 goto step6; i 
tcp_input.c 
图 11-10 (45) 
14. 是 客户 端 则 不 要 跳 过 ACK 处 理 


784-793 如 果 ACK 标 志 打 开 ， 我 们 就 是 事务 过 程 中 的 客户 端 。 也 就 是 说 ， 我 们 发 送 的 SYN 
得 到 了 ACK， 我们 是 从 SYN_SENT 状 态 变 迁 到 当前 状态 的 ， 而 不 是 从 LISTEN 状 态 变 迁 来 的 。 
在 这 种 情况 下 ， 我 们 不 能 执行 step6 分 支 ， 因 为 那样 就 会 跳 过 对 ACK 的 处 理 过 程 ( 见 图 11-1)， 
而 如 果 我 们 在 SYN 报 文 段 中 发 送 了 数据 ， 就 需要 对 数据 的 ACK 进 行 处 理 (常规 的 TCP 会 在 这 里 
跳 过 对 ACK 的 处 理 过 程 ， 因 为 它 从 来 不 会 随 SYN 一 起 发 送 数据 )。 

处 理 过 程 中 的 下 一 个 步骤 是 T/TCP 中 新 加 的 。 通 常 ， 卷 2 第 753 页 开始 的 switch 语 句 中 只 
有 LISTEN 和 SYN_SENT 状 态 这 两 个 case 处 理 代码 (这 两 种 情况 我 们 都 刚刚 介绍 过 )。T/TCP 增 
加 了 LAST_ACK、CLOSING 和 TIME_WAIT 状 态 这 三 段 case 处 理 代码 ， 如 图 11-11 所 示 。 


T rm tcp input.c 
795 * If the state is LAST ACK or CLOSING or TIME WAIT: 

796 * if segment contains a SYN and CC [not CCnew] option 

797 * and peer understands T/TCP (cc recv != 0): 

798 $ if state == TIME_WAIT and connection duration > MSL, 
799 * drop packet and send RST; 

800 * 

801 e if SEG.CC » CCrecv then is new SYN, and can implicitly 

802 * ack the FIN (and data) in retransmission queue. 

803 * Complete close and delete TCPCB. Then reprocess 
804 * segment, hoping to find new TCPCB in LISTEN state; 
805 * 

806 * else must be old SYN; drop it. 

807 * else do normal processing. 

808 */ 

809 case TCPS LAST ACK: 

810 case TCPS CLOSING: 

811 case TCPS TIME WAIT: 

812 if ((tiflags & TH SYN) && 

813 (to.to flag & TOF CC) && tp-»cc recv !- 0) ( 

814 if (tp-»t state == TCPS TIME WAIT && 

815 tp-»t duration > TCPTV MSL) 

816 goto dropwithreset; 

817 if (CC GT(to.to cc, tp-»cc recv)) { 

818 tp - tcp close(tp); 


图 11-11 tcp input; LAST_ACK、CLOSING 和 TIME_WAIT 状 态 的 初始 处 理 
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819 tcpstat.tcps impliedack-4-; 
820 goto findpcb; 
821 ) else 
822 goto drop; 
823 ) 
824 break; /* continue normal processing */ 
825 ) 
tcp input.c 
图 11-11 (25) 


812-813 只 有 在 接收 到 的 报 文 段 中 包含 了 SYN 和 CC 选项 ， 并 且 我 们 已 经 有 该 主机 的 缓存 
CC 值 (cc_recv 提 0)， 才 执行 接 下 来 的 特殊 测试 。 同 时 知道 要 进入 三 种 状态 之 一 ，TCP 已 发 出 
了 一 个 FIN， 并 接收 到 一 个 FIN( 图 2-6)。 在 LAST_ACK 和 CLOSING 状 态 下 ，TCP 等 待 对 其 所 
发 FIN 的 ACK。 所 以 要 执行 的 测试 是 在 TIME_WAIT 状 态 下 收 到 新 的 SYN 时 是 否 可 以 安全 地 截 
断 TIME_WAIT 状 态 ， 或 者 在 LAST_ACK 或 CLOSING 状 态 下 收 到 一 个 新 的 SYN 是 否 隐 含 着 我 
们 所 发 送 FIN 的 ACK。 
15. 如 果 持 续 时 间 大 于 MSL 就 不 允许 截断 TIME_WAIT 状 态 
814-816 通常 ， 处 于 TIME_WAIT 状 态 下 的 连接 是 允许 接收 新 SYN 的 ( 卷 2 第 765~766 页 )。 这 
是 从 伯克利 演变 来 的 系统 所 人 允许 的 隐 式 截断 TIME_WAIT 状 态 ， 至 少 从 NET/I 以 后 就 是 这 样 了 
( 卷 1 的 习题 18.5 的 解答 就 说 明了 这 一 特性 )。 如 果 连 接 处 于 TIME_WAIT 状 态 的 持续 时 间 大 于 
MSL， 上 述 做 法 在 T/TCP 中 是 不 允许 的 ， 这 时 要 发 送 RST。 我 们 在 4.4 节 中 讲 到 过 这 个 限制 。 
16. 新 SYN 是 现存 连接 的 隐 含 ACK 
817-820 如 果 接 收 到 的 CC 值 大 于 缓存 的 CC 值 ， 则 TAO 测试 成 功 ( 即 这 是 一 个 新 的 SYN)。 这 
时 关闭 当前 连接 ， 回 头 执行 Eindpcb 分 支 ， 希 望 找 到 一 个 处 于 LISTEN 状 态 的 插口 来 处 理 新 
的 SYN。 图 4-7 给 出 了 服务 器 播 口 的 一 个 例子 ， 在 处 理 隐 含 的 ACK 时 ， 插 口 处 于 LAST_ACK 


11.6 PAWS: 防止 序号 重复 


卷 2 第 740 页 的 PAWS 测 试 没 有 变化 一 一 就 是 处 理 时 间 戳 的 代码 。 图 11-12 所 示 的 测试 在 这 
些 时 间 截 测试 之 后 执行 ， 验 证 接收 到 的 CC。 


ee "m tcp input.c 
861 * T/TCP mechanism: 

862 $ If T/TCP was negotiated, and the segment doesn't have CC 

863 * or if its CC is wrong, then drop the segment. 

864 » RST segments do not have to comply with this. 

865 *y 

866 if ((tp-»t flags & (TF REQ CC | TF RCVD CC)) == (TF REQ CC | TF RCVD CC) && 
867 ((to.to flag & TOF.CC) == 0 || tp-»cc recv != to.to cc) && 

868 (tiflags & TH RST) == 0) ( 

869 tcpstat.tcps ccdrop-**; 

870 goto dropafterack; 

871 ) 


tcp input.c 
图 11-12 tcp_input :验证 接收 到 的 CC 
860-871 如 果 使 用 T/TCP(TF_REQ CC 和 TF_RCVD_CC 选 项 同时 打开 ) ， 这 时 接收 到 的 报 文 
段 必 须 包 含 CC 选 项 ， 且 CC 值 必须 等 于 该 连接 所 用 的 值 (cc_recv); 否则 ， 报 文 段 就 是 过 时 重 
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复 的， 要 丢弃 (但 要 给 出 确认 ， 因 为 所 有 重复 的 报 文 段 都 需要 确认 )。 如 果 报 文 段 中 包含 了 RST,， 
就 不 丢弃 ， 人 允许 处 理 该 报 文 段 的 函数 稍 后 可 以 对 RST 进 行 处 理 。 
11.7 ACK 处 理 


在 卷 2 第 771 页 上 ，RST 处 理 后 ， 如 果 ACK 标 志 没 有 打开 ， 报 文 段 就 被 丢弃 。 这 是 常规 的 
TCP 处 理 过 程 。T/TCP 改 变 这 一 点 ， 如 图 11-13 所 示 。 





1524 " tcp. input.c 

1025 * If the ACK bit is off: if in SYN-RECEIVED state or SENDSYN 

1026 * flag is on (half-synchronized state), then queue data for 

1027 * later processing; else drop segment and return. 

1028 Wf 

1029 if ((tiflags & TH ACK) == 0) { 

1030 if (tp-»t state == TCPS SYN RECEIVED || 

1031 (tp-»t flags & TF SENDSYN)) 

1032 goto step6; 

1033 else 

1034 goto drop; 

1035 ) ， > 
tcp_input.c 





图 11-13 tcp input; 处 理 没 有 ACK 标 志 的 报 文 段 


1024-1035 如果 ACK 标 志 关 闭 ， 并 且 状 态 是 SYN_RCVD, 或 者 TF_SESNDSYN 标 志 打 开 
( 即 半 同步 )， 则 执行 step6 分 支 ， 而 不 是 丢弃 该 报 文 段 。 这 样 做 处 理 的 是 在 连接 建立 前 、 但 
第 一 个 SYN 之 后 、 不 带 ACK 的 数据 报 文 段 到 达 的 情况 (例如 图 3-9 的 第 2 报 文 段 和 第 3 报 文 段 )。 


11.8 完成 被 动 打开 和 同时 打开 


如 卷 2 的 第 29 章 一 样 ， 继 续 对 ACK 进 行 处 理 。 第 774 页 的 大 部 分 代码 还 是 一 样 的 (删除 第 
806 行 )， 但 用 图 11-14 的 代码 替代 其 中 的 813~815 行 。 这 时 我 们 处 于 SYN_RCVD 状 态 ， 处 理 的 
是 完成 三 次 担 手 的 最 后 一 个 ACK。 这 是 在 服务 器 上 对 连接 的 常规 处 理 过 程 。 

1. 如 果 缓 存 的 CC 值 未 定义 ， 就 更 新 
1057-1064 读 取 这 个 对 等 端的 TAO 记录 项 ， 如 果 所 缓存 的 CC 值 为 0( 未 定义 )， 则 用 接收 到 
的 CC 值 更 新 。 注 意 ， 只 有 在 缓存 的 值 未 定义 时 才 执 行 更 新 操作 。 回 顾 前 面 ， 图 11-6 的 代码 在 
CC 选项 不 存在 时 明确 地 将 tao_cc 设 置 为 0( 这 样 ， 当 三 次 握手 完成 时 就 会 进行 更 新 )。 但 是 如 
果 TAO 测 试 失败 ， 也 就 不 会 修改 tao_cc 的 值 。 后 面 这 个 动作 实际 上 就 是 收 到 了 一 个 失 序 的 
SYN， 不 应 引起 缓存 tao_cc 的 改变 ， 如 我 们 在 图 4-11 中 所 述 。 

2. 变迁 到 新 状态 
1065-1074 从 SYN_RCVD 状 态 变迁 到 ESTABLISHED 状 态 ， 是 服务 器 完成 三 次 担 手 过 程 的 
常规 TCP 状 态 变 迁 。 因 为 进程 已 经 用 MSG_EOF 标 志 关 闭 了 用 于 发 送 的 半 个 连接 ， 连 接 状 态 从 
SYN_RCVD* 变 迁 到 FIN_WAIT_1 状 态 。 


tcp_input.c 
1057 /让 
1058 * Upon successful completion of 3-way handshake, 
1059 * update cache.CC if it was undefined, pass any queued 
1060 * data to the user, and advance state appropriately. 


11-14. tcp input; 被 动 打开 或 同时 打开 的 完 
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1061 ai i 
1062 if ((taop = tcp gettaocache(inp)) != NULL && 
1063 taop-»tao cc == 0) 
1064 taop-»tao cc = tp-»cc recv; 
1065 /* 
1066 * Make transitions: 
1067 * SYN-RECEIVED -> ESTABLISHED 
1068 * SYN-RECEIVED* -» FIN-WAIT-1 
1069 ui à 
1070 if (tp-»t flags & TF SENDFIN) ( 
1071 tp-»t state - TCPS FIN WAIT 1; 
1072 tp-»t flags &- ^TF SENDFIN; 
1073 ) else 
1074 tp-»t state = TCPS ESTABLISHED; 
1075 A* 
1076 * If segment contains data or FIN, will call tcp reass() 
1077 * later; if not, do so now to pass queued data to user. 
1078 +z 
1079 if (ti->ti_len == 0 && (tiflags & TH_FIN) == 0) 
1080 (void) tcp_reass(tp, (struct tcpiphdr *) 0, 
1081 (struct mbuf *) 0); 
1082 tp->snd_wl1 = ti->ti_seq - 1; 
1083 F* Fall, into sze */ : 
tcp input.c 
图 11-14 (3) 
3. 检查 数据 或 FIN 


1075-1081 如 果 报 文 段 中 包含 有 数据 或 FIN 标 志 ， 那 么 在 标号 为 aodata 的 代码 行 就 要 调用 
宏 TCP_REASS( 回 顾 图 11-1) 将 数据 交付 给 用 户 进程 。 卷 2 第 790 页 给 出 了 在 标号 dodata 处 对 
这 个 宏 的 调用 ， 这 上 段 代码 在 TTCP 中 没有 改变 。 否 则 就 要 调用 tcp_reass， 其 第 二 个 参数 为 
0， 将 队列 中 的 所 有 数据 交付 给 用 户 进程 。 


11.9 ACK 处 理 ( 续 ) 


快速 重 传 和 快速 恢复 算法 ( 卷 2 的 29.4 节 ) 保 持 不 变 。 图 11-15 中 的 代码 插入 在 卷 2 第 779 页 的 
899~900 行 之 间 。 





1186 Fn tcp input.c 
1169 * If we reach this point, ACK is not a duplicate, 

1170 * i.e., it ACKs something we sent. 

1173. wf 

1172 if (tp-»t flags & TF SENDSYN) ( 

1173 £* 

1174 * T/TCP: Connection was half-synchronized, and our 
1175 * SYN has been ACK'd (so connection is now fully 
1176 * synchronized). Go to non-starred state and 

1177 * increment snd una for ACK of SYN. 

1178 *y 

1179 tp->t_flags &= ^TF SENDSYN; 

1180 tp->snd_una++; 

1181 ) 

1182 processack: 


ee 


图 11-15 tcp input: 如 果 TF_SENDSYN 打 开 了 ， 就 将 其 关闭 
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1. 关闭 隐藏 状态 标志 TPR SENDSYN 
1168-1181 ”如果 隐藏 状态 标志 TF_SENDSYN 处 于 打开 状态 ， 则 它 将 被 关闭 。 这 是 因为 接收 
到 的 ACK 确 认 了 已 经 发 送出 去 的 一 些 东 西 ， 连 接 已 不 再 是 半 同 步 。 因 为 SYN 已 经 得 到 确认 ， 
并 且 SYN 占 用 了 1 字 节 序号 空间 ，snqd_una 加 1。 

图 11-16 插 在 卷 2 第 780~781 页 的 926~927 行 之 间 。 


1210 
1211 
1212 
1213 
1214 
1215 


e tcp input.c 
* If no data (only SYN) was ACK'd, 
* skip rest of ACK processing. 
=j 
if (acked == 0) 
goto step6; . 
tcp input.c 


图 11-16 tcp input: 如 果 没 有 对 数据 的 ACK 就 跳 过 剩 ACK 处 理 过 程 


2. 如 果 没 有 对 数据 的 ACK， 就 跳 过 剩余 ACK 处 理 过 程 
1210-1215 如果 没有 对 数据 的 确认 ( 仅 对 我 们 的 SYN 给 出 了 确认 )，ACK 处 理 过 程 的 剩余 部 


分 就 跳 过 


去 。 跳 过 去 的 处 理 代码 包括 打开 拥塞 窗口 和 将 已 得 到 确认 的 数据 从 发 送 缓存 中 移 去 。 
这 项 测试 和 程序 分 支 在 TITCP 中 不 存在 。 这 纠正 了 在 14.12 节 的 最 后 讨论 的 一 个 


程序 缺陷 ， 在 那里 连接 的 服务 器 端 通过 发 送 两 个 背靠背 段 来 执行 慢 启 动 ， 而 不 是 一 

个 报 文 段 。 

第 2 个 变化 如 图 11-17 所 示 ， 用 于 替代 卷 2 的 图 29-12 中 的 代码 。 这 时 我 们 处 于 CLOSING 状 
态 并 对 ACK 进 行 处 理 ， 处 理 结 果 是 将 连接 的 状态 变迁 到 TIME_WAIT。T/TCP 人 多 许 截 断 
TIME_WAIT 状 态 ( 见 4.4 节 )。 


1266 
1267 
1268 
1269 
1270 
1271 
1272 
1273 
1274 
1275 
1276 
12777 
1278 
1279 
1280 
1281 
1282 
1283 


tcp input.c 


* In CLOSING STATE in addition to the processing for 
* the ESTABLISHED state if the ACK acknowledges our FIN 
* then enter the TIME-WAIT state, otherwise ignore 
* the segment. 
y 
case TCPS CLOSING: 
if (ourfinisacked) ( 
tp-»t state = TCPS TIME WAIT; 
tcp canceltimers(tp); 
/* Shorten TIME WAIT [RFC 1644, p.28] */ 
if (tp-»cc recv !- 0 && tp-»t duration < TCPTV MSL) 
tp-»t timer[TCPT 2MSL] = tp-»t rxtcur * TCPTV TWTRUNC; 
else 
tp-»t timer[TCPT 2MSL] = 2 * TCPTV MSL; 
soisdisconnected(so); 
) 


break; " 
tcp input.c 


图 11-17 tcp input; 在 CLOSING 状 态 收 到 ACK: 设置 TIME_WAIT 定 时 器 


1276-1280 如 果 我 们 从 对 等 端 接收 到 一 个 CC 值 ， 并 且 连 接 的 持续 时 间 少 于 MSL， 这 时 
TIME_WAIT 定 时 器 就 设置 为 当前 重 传 超时 的 TCPTV_TWTRUNC(8) 倍 。 否 则 ，TIME_WAIT 定 
时 器 设置 为 通常 的 2 倍 MSL。 
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11.10 ”FIN 处 理 


TCP 输 入 处 理 的 接 下 来 的 三 部 分 (更 新 窗口 信息 、 紧 急 模 式 处 理 和 接收 数据 处 理 ) 在 T/TCP 
中 都 没有 改变 (回忆 图 11-1)。 再 回顾 卷 2 的 29.9 节 ， 如 果 设 置 了 FIN 标 志 ， 但 因为 序号 空间 的 空 
洞 ， 它 不 会 得 到 确认 ， 那 一 节 中 的 代码 就 用 于 清除 FIN 标 志 。 因 此 ， 在 这 里 我 们 知道 FIN 是 要 


等 待 确 认 的 。 
FIN 处 理 过 程 的 另 一 个 变化 如 图 11-18 所 示 。 这 个 修改 用 于 替代 卷 2 第 791 页 的 第 1123 行 。 
1407 "m Icp input.c 
1408 * If FIN is received ACK the FIN and let the user know 
1409 * that the connection is closing. 
1410 xy 
1411 if (tiflags & TH FIN) ( 
1412 if (TCPS HAVERCVDFIN(tp-»t state) == 0) ( 
1413 Ssocantrcvmore(so); 
1414 /* 
1415 * If connection is half-synchronized 
1416 * (i.e., TF SENDSYN flag on) then delay the ACK 
1417 * so it may be piggybacked when SYN is sent. 
1418 * Else, since we received a FIN, no more 
1419 * input can be received, so we send the ACK now. 
1420 A 
1421 if (tp->t_flags & TF_SENDSYN) 
1422 tp->t_flags |= TF DELACK; 
1423 else 
1424 tp->t_flags |= TF ACKNOW; 
1425 tp-»rcv nxt**; 
1426 ) : 
tcp input.c 


图 11-18 tcp input; 确定 是 否 延 迟 发 送 FIN 的 ACK 


1. 决定 是 否 延迟 发 送 ACK 
1414-1424 如 果 连 接 是 半 同 步 的 (隐藏 状态 标志 TF_SENDSYN 打 开 )，ACK 就 要 延迟 发 送 ， 
试图 在 数据 报 文 段 中 撒 带 ACK。 这 是 一 种 典型 的 情况 ， 处 于 LISTEN 状 态 的 T/TCP 服 务 器 收 到 
SYN， 这 样 图 11-5 中 的 代码 就 会 设置 TF_SENDSYN 标 志 。 注 意 ， 图 中 代码 已 将 延迟 发 送 ACK 
的 标志 打开 ， 但 这 里 是 TCP 要 根据 已 经 设置 了 的 FIN 标 志 确 定 怎 样 去 做 。 如 果 TF_SENDSYN 标 
志 没 有 打开 ， 则 ACK 不 能 延迟 。 

常规 的 变迁 是 从 FIN_WAIT_2 状 态 到 TIME_WAIT 状 态 ， 在 T/TCP 中 这 也 需要 修改 ， 以 便 
使 TIME_WAIT 状 态 可 能 被 截断 ( 见 4.4 节 )。 图 11-19 给 出 了 这 些 修 改 ， 用 于 取代 卷 2 第 792 页 的 
1142~1152 行 。 


T*T x Icp input.c 
1444 * In FIN WAIT 2 state enter the TIME WAIT state, 

1445 * starting the time-wait timer, turning off the other 

1446 * standard timers. 

1447 mj 

1448 case TCPS FIN WAIT 2: 

1449 tp-»t state = TCPS TIME WAIT; 

1450 tcp canceltimers (tp); 

1451 /* Shorten TIME WAIT [RFC 1644, p.28] */ 


11-19 tcp input; 变迁 到 TIME_WAIT 状 态 以 便 可 能 截断 超时 间隔 
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1452 if (tp->cc_recv !- 0 && tp-»t duration < TCPTV MSL) { 
1453 ; tp-»t timer[TCPT 2MSL] = tp-»t rxtcur * TCPTV TWTRUNC; 
1454 /* For transaction client, force ACK now. */ 
1455 tp-»t flags |= TF ACKNOW; 
1456 ) else 
1457 tp-»t timer[TCPT 2MSL] = 2 * TCPTV MSL; 
1458 soisdisconnected(so); 
1459 break; . 
tcp input.c 
图 11-19 (£x) 


2. 设置 TIME_WAIT 超 时 间隔 
1451-1453 如 图 11-17 所 示 ， 只 有 当 我 们 从 对 等 端 收 到 一 个 CC 选项 ， 并 且 连 接 时 间 短 于 
MSL 时 ，TIME_WAIT 状 态 才能 截断 。 

3. 强迫 立即 发 送 FIN 的 ACK 
1454-1455 这 个 变迁 通常 是 在 T/TCP 的 客户 端 ， 当 收 到 服务 器 的 响应 以 及 服务 器 的 SYN 和 
FIN 时 发 生 的 。 服 务 器 的 FIN 应 该 立即 给 出 ACK， 因 为 两 端 都 已 经 发 送 了 FIN， 已 经 没有 理由 
再 延迟 发 送 ACK 了 。 

在 两 个 地 方 要 重启 动 TIME_WAIT 定 时 器 : 处 于 TIME_WAIT 状 态 时 接收 到 ACK 

和 处 于 TIME_WAIT 状 态 时 接收 到 FIN( 卷 2 第 784 页 和 第 792 页 )。T/TCP 没 有 修改 这 些 

代码 。 这 表明 ， 即 使 状态 TIME_WAIT 被 截断 ， 如 果 在 这 时 收 到 重复 的 ACK 或 FIN， 

定时 器 就 要 在 2MSL 时 重启 动 ， 而 不 是 在 截断 后 的 值 。 重 启动 定时 器 所 需要 的 信息 在 

截断 后 的 值 时 也 能 得 到 ( 即 控制 块 )， 但 是 由 于 对 等 端 必 须 重 传 ， 更 保守 的 做 法 是 不 截 

断 TIME_WAIT 状 态 。 


11.11 小 结 


T/TCP 所 做 的 修改 大 部 分 都 是 在 tcp_input 中 ， 并 且 其 中 的 大 部 分 修改 都 与 打开 新 连接 
有 关 。 

在 LISTEN 状 态 收 到 SYN 时 要 执行 TAO 测 试 。 如 果 报 文 段 通过 了 这 个 测试 ， 报 文 段 就 不 是 
过 时 的 重复 报 文 段 ， 三 次 握手 也 就 不 需要 了 。 在 SYN_SENT 状 态 收 到 SYN 时 ，CCecho 选 项 (如 
果 存 在 ) 就 用 于 验证 该 SYN 不 是 过 时 的 重复 报 文 段 。 当 处 于 LAST_ACK、CLOSING 和 
TIME_WAIT 状 态 收 到 SYN 时 ， 很 有 可 能 SYN 是 一 个 隐 含 的 ACK， 可 以 完成 现存 连接 的 关闭 ， 

当主 动 关闭 一 个 连接 时 ， 如 果 连 接 的 持续 时 间 短 于 MSL， 则 TIME_WAIT 状 态 被 截断 。 
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12.1 概述 


tcp_usreq 函 数 处 理 来 自 插口 层 的 所 有 PRU_xxx 请 求 。 在 本 章 中 我 们 仅仅 介绍 
PRU_CONNECT、PRU_SEND 和 PRU_SEND_EOF 请 求 ， 因 为 TTTCP 中 只 对 这 三 个 请 求 做 了 修 
改 。 我 们 也 会 介绍 tcp_usrclosed 函 数 ， 当 进程 发 送 完 数据 时 要 调用 这 个 函数 。 还 有 
tcp_sysct1 国 数 也 会 介绍 ， 它 用 来 处 理 新 的 TCP 中 的 sysct1 变 量 。 

我 们 不 打算 介绍 tcp_ct1loutput 国 数 ( 见 卷 2 的 30.6 节 ) 所 需 的 修改 ， 这 个 国 数 用 于 设置 
和 读 取 两 个 新 的 播 口 选 项 : TCP_NOPUSH 和 TCP_NOOPT。 所 需 的 修改 是 非常 细微 具体 的 ， 只 
要 阅读 源 代 码 就 很 容易 理解 。 


12.2 PRU CONNECTiÉ:K 


在 Net/3 中 ， 大 约 需 要 25 行 代码 ( 卷 2 第 808~809 页 ) 来 处 理 tcp_usrreq 发 出 的 
PRU_CONECT 请 求 。 在 TITCP， 大 部 分 这 些 代 码 都 移 到 了 tcp_connect 国 数 中 (下 一 节 介 绍 )， 
只 留 下 了 图 12-1 所 给 出 的 代码 。 


tcp usrreq.c 


137 case PRU CONNECT: 

138 if ((error - tcp connect(tp, nam)) !- 0) 
139 break; 

140 error = tcp output (tp); 

141 break; 


tcp. usrreq.c 
图 12-1 PRU_CONNECT 请 求 


137-141 tcp_connect 执 行 连接 建立 所 需 的 步骤 ，tcp_output 发 出 SYN 报 文 段 (主动 
打开 )。 

当 某 个 进程 调用 connect 时 ， 即 使 本 地 主机 和 待 连接 的 对 等 端 主机 都 支持 TITTCP， 仍然 
要 经 历 正 常 的 三 次 握手 过 程 。 这 是 因为 不 可 能 用 connect 函 数 传递 数据 ,这样 tcp_output 
就 仅仅 发 送 SYN。 为 了 跳 过 三 次 担 手 过 程 ， 应 用 程序 必须 避免 使 用 connect ， 而 是 使 用 
sendto 或 sendmsg， 并 给 定数 据 和 对 等 端 服务 器 的 地 址 。 


12.3 tcp connect% 


新 的 kfcp_connect 国 数 执行 主动 打开 所 需 的 处 理 步骤 。 当 进程 调用 connect 
(PRU_CONNECT 请 求 ) 或 者 当 进 程 调用 sendto 或 sendmsg 上 时， 要 改 为 调用 该 函数 ， 指 定 待 连接 
的 对 等 端 地 址 (PRU_SEND 和 PRU_SEND_EOF 请 求 )。tcp_connect 的 第 一 部 分 在 图 12-2 中 给 

1. 绑 定 本 地 端口 
308-312 nam 指 向 一 个 Internet 插 口 地 址 结构 ， 其 中 包含 待 连接 的 服务 器 的 IP 地 址 和 端口 号 。 
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如 果 还 没有 给 插口 指定 一 个 本 地 端口 (通常 的 情况 )， 调 用 in_pcbbind 就 会 分 配 一 个 端口 ( 卷 2 
第 558 页 )。 

2. 指定 本 地 地 址 ， 检 查 插口 对 的 唯一 性 
313-323 如果 还 没有 给 插口 绑 定 一 个 本 地 IP 地 址 (通常 的 情况 下 )， 调 用 in_pcbladdr 就 可 
分 配 本 地 IP 地 址 。in_pcblookup 查 找 匹配 的 PCB， 如 果 找 到 ， 就 返回 一 个 非 空 指针 。 仅 仅 
在 进程 绑 定 了 一 个 专门 指定 的 本 地 端口 时 才 可 能 找到 一 个 匹配 的 PCB ， 因 为 如 果 
in_pcbbind 选 择 本 地 端口 ， 就 会 选择 一 个 目前 不 在 使 用 的 本 地 端口 。 但 是 在 TTCP 中 ,更 
有 可 能 的 是 一 个 客户 端 进程 为 一 系列 事务 绑 定 同一 个 本 地 端口 ( 见 4.2 节 )。 

3. 存在 已 有 连接 ; 检查 TIME_WAIT 状 态 是 否 可 以 截断 
324-332 如 果 找 到 一 个 匹配 的 PCB ， 进 行 下 面 的 三 项 测试 ， 

1) PCB 是 否 处 于 TIME_WAIT 状 态 ; 

2) 连接 持续 时 间 是 否 短 于 MSL; 

3) 连接 是 否 使 用 T/TCP( 也 就 是 说 ， 是 否 从 对 等 端 收 到 了 一 个 CC 选项 或 CCnew 选 项 )。 

如 果 上 述 这 三 个 条 件 同 时 为 真 ， 则 调用 tcp_close 关 闭 现 有 的 PCB。 这 就 是 我 们 在 4.4 市 
中 讨论 过 的 ， 当 一 个 新 的 连接 再 次 使 用 同一 插口 对 并 执行 一 次 主动 打开 时 ，TIME_WAIT 状 态 
的 截断 。 

4. 在 互联 网 PCB 中 完成 插口 对 
333-336 ”如果 本 地 地 址 还 是 通配符 ， 则 in_pcbladdr 计 算出 的 值 存储 在 PCB 中 。 外 部 地 
址 和 外 部 端口 也 存储 在 PCB 中 。 

图 12-2 中 的 步骤 与 图 7-5 中 的 最 后 一 部 分 相似 。tcp_connect 的 最 后 一 部 分 在 图 12-3 中 
给 出 。 这 段 代码 与 卷 2 第 808~809 页 PRU_CONNECT 请 求 的 最 后 一 部 分 相似 。 

a tcp_usrreq.c 
296 tcp_connect (tp, nam) 


297 struct tcpcb *tp; 
298 struct mbuf *nam; 


299 1 

300 struct inpcb *inp = tp-»t inpcb, *oinp; 

301 struct socket *so - inp-»inp socket; 

302 struct tcpcb *otp; 

303 struct sockaddr in *sin = mtod(nam, struct sockaddr in *); 
304 struct sockaddr in *ifaddr; 

305 int error; 

306 struct rmxp tao *taop; 

307 struct rmxp tao tao noncached; 

308 if (inp-»inp lport == 0) ( 

309 error = in pcbbind(inp, NULL); 

310 if (error) 

31d return (error); 

312 ) 

313 £ 

314 * Cannot simply call in pcbconnect, because there might be an 
315 * earlier incarnation of this same connection still in 
316 * TIME WAIT state, creating an ADDRINUSE error. 

819 $, 

318 error = in pcbladdr(inp, nam, &ifaddr); 

319 oinp - in pcblookup(inp-»inp head, 


图 12-2 tcp_connect 国 数 : 第 一 部 分 
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320 sin->sin addr, sin-»sin port, 

321 inp-»inp laddr.s addr !- INADDR ANY ? 
322 inp-»inp laddr : ifaddr-»sin adádr, 
323 inp-»inp lport, 0); 

324 if (oinp) ( 

325 if (cinp !- inp && (otp - intotcpcb(oinp)) !- NULL && 
326 Otp-»t state == TCPS TIME WAIT && 

327 otp-»t duration « TCPTV MSL && 

328 (otp-»t flags & TF RCVD,. CC)) 

329 otp = tcp close(otp); 

330 else 

331 return (EADDRINUSE); 

332 ) 

333 if (inp-»inp laddr.s addr -- INADDR ANY) 

334 inp-»inp laddr = ifaddr-»sin addr; 

335 inp-»inp. faddr = sin-»sin addr; 

336 inp-»inp fport = sin-»sin port; tcp_usrreq.c 

图 12-2 ( 续 ) 
tcp_usrreq.c 

337 tp-»t template = tcp template(tp); 

338 if (tp-»t template == 0) ( 

339 in pcbdisconnect(inp); 

340 return (ENOBUFS); 

341 ) 

342 /* Compute window scaling to request.  */ 

343 while (tp-»request r scale « TCP MAX WINSHIFT && 

344 (TCP MAXWIN «« tp-»request r scale) « so-»so rcv.sb hiwat) 
345 tp-»request r scale++; 

346 Soisconnecting(so); 

347 tcpstat.tcps connattempt-*; 

348 tp-»t state = TCPS SYN SENT; 

349 tp-»t timer[TCPT KEEP] = TCPTV KEEP INIT; 

350 tp-»iss - tcp iss; 

351 tcp iss += TCP ISSINCR / 4; 

352 tcp sendseginit(tp); 

353 /* 1 

354 * Generate a CC value for this connection and 

355 * check whether CC or CCnew should be used. 

356 x 

357 if ((taop - tcp gettaocache(tp-»t inpcb)) -- NULL) ( 

358 taop - &tao noncached; 

359 bzero(taop, sizeof(*taop)); 

360 ) 

361 tp-»cc send = CC INC(tcp ccgen); 

362 if (taop-»tao ccsent !- 0 && 

363 CC GEQ(tp-»cc send, taop-»tao ccsent)) ( 

364 taop-»tao ccsent = tp-»cc send; 

365 ) else ( 

366 taop-»tao ccsent = 0; 

367 tp-»t flags |= TF SENDCCNEW; 

368 } 

369 return (0); 

370 } 





tcp_usrreq.c 


图 12-3 tcp_connect 函 数 ; 第 二 部 分 
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5. 初始 化 IP 和 TCP 首 部 
337-341 tcp_template 分 配 一 个 mbuf， 用 于 缓存 IP 和 TCP 首 部 ， 并 用 尽 可 能 多 的 信息 来 
初始 化 这 两 个 首部 。 

6. 计算 窗口 宽度 因子 
342-345 计算 接收 缓存 的 窗口 宽度 值 。 

7. 设置 插口 和 连接 的 状态 
346-349 soisconnecting 在 插口 状态 变量 中 设置 特定 的 一 些 标志 位 ， 并 设置 TCP 连 接 的 
状态 为 SYN_SENT( 如 果 进 程 给 出 MSG_EOF 标 志 ， 并 调用 sendto 或 者 sendmsg， 而 不 是 调用 
connect, 我 们 很 快 就 会 看 到 tcp_usrclosed 设 置 TF_SENDSYN 隐 藏 状态 标志 ， 连 接 状 态 
变迁 到 SYN_SENT*)。 连 接 建立 定时 器 初始 化 为 75 秒 。 

8. 初始 化 序号 
350-352 从 全 局 变量 tcp_iss 中 复制 初始 发 送 序号 ， 然 后 该 全 局 变量 值 要 增加 ， 即 加 上 除 
以 4 后 的 TCP_ISSINCR。 发 送 序号 由 tcp_sendseqinit 初 始 化 。 


我 们 在 3.2 节 中 讨论 过 的 ISS 随 机 化 在 宏 TCP ISSINCR 中 实现 ， 


9. 生成 CC 值 
353-361 读 取 对 等 端的 TAO 缓 存 记 录 项 。 全 局 变量 tcp_ccgen 值 加 上 CC_INC( 见 8.2 市 ) 后 
存储 在 T/TCP 的 变量 tcp_ccgen 中 。 如 同 我 们 以 前 所 述 ， 不 论 是 否 使 用 了 CC 选项 ， 主 机 每 建 
立 一 个 连接 ，tcp_ccgen 就 要 加 1。 

10. 确定 是 否 使 用 CC 或 CCnew 选 项 
362-368 如果 对 应 这 个 主机 的 TAO 缓 存 (tao_ccsent) 非 0( 说 明 与 该 主机 之 间 已 经 不 是 第 
一 次 连接 )， 并 且 cc_send 的 值 大 于 或 等 于 tao_ccsent(CC 值 还 没有 回 到 0， 继 续 循 坏 )， 这 
时 发 出 一 个 CC 选项 并 用 新 的 CC 值 更 新 TAO 缓 存 。 否 则 发 送 一 个 新 的 CCnew 选 项 ， 并 将 
tao_ccsent 设 置 为 0( 即 未 定义 )。 

回想 图 4-12 中 ， 那 里 的 情况 可 以 作为 上 述 if 条 件 中 的 第 二 部 分 不 成 立 的 一 个 实例 : 最 后 
一 次 发 送 这 个 主机 的 CC 值 是 1(tao_ccsent), 但 tcp_ccgen( 对 这 个 连接 来 说 ， 变 为 
cc_send) 的 当前 值 是 2 147 483 648, 这 样 ，T/TCP 就 必须 发 送 CCnew 选 项 而 不 是 CC 选项 ， 
为 如 果 我 们 发 出 的 CC 选项 值 为 2 147 483 648， 而 对 方 主机 还 在 其 缓存 中 记 着 我 们 上 次 发 送 的 
CC 值 ( 即 1)， 那 个 主机 会 强制 执行 三 次 握手 操作 ， 因 为 CC 值 已 经 回 到 0 并 继续 循环 。 对 方 主机 
无 法 区 分 CC 值 为 2 147 483 648 的 SYN 是 否 是 一 个 过 时 的 重复 报 文 段 。 而 且 ， 如 果 我 们 发 送 了 
CC 选项 ， 即 使 三 次 担 手 过 程 顺 利 完成 ， 对 方 主机 也 不 会 更 新 对 应 于 本 主机 的 缓存 记录 项 (请 再 
看 看 图 4-12)。 如 果 发 送 的 是 CCnew 选 项 ， 客 户 端 强制 执行 三 次 握手 操作 ， 并 且 会 使 服务 器 在 
三 次 握手 操作 完成 后 更 新 对 应 于 本 主机 的 缓存 值 。 


Bob Braden 的 T/TCP 实 现 是 在 tcp_output 中 测试 是 发 送 CC 选 项 还 是 CCnew 选 
项 ， 而 不 是 在 这 个 函数 中 。 这 就 导致 了 一 个 微小 的 缺陷 ， 见 下 面 的 解释 [Olah 1995], 
考虑 图 4-11， 但 假定 报 文 段 1 被 中 途 的 某 个 路 由 器 丢弃 。 报 文 段 2~4 如 图 所 示 ， 从 客 
户 芭 口 1601 发 起 的 连接 成 功 地 建立 。 客 户 端 发 出 的 下 一 个 报 文 段 是 重 传 的 报 文 段 1， 
但 其 中 包含 一 个 取 值 为 15 的 CCnew 选 项 。 假 设 该 报 文 段 成 功 地 收 到 ， 服 务 器 强制 执 
行 三 次 握手 ， 完 成 以 后 ,服务器 将 对 应 于 该 客户 闯 的 CC 缓存 值 更 新 为 15。 如 果 此 后 
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网 络 交 付 了 一 个 过 时 的 重复 报 文 段 >， 其 中 的 CC 值 为 5000， 服务 器 收 到 后 就 会 收 下 。 
解决 的 方法 是 在 客户 广 执 行 主动 打开 时 判断 是 发 送 CC 选 项 还 是 CCnew 选 项 ， 而 不 是 
在 上 cp_output 函 数 中 发 送 报 文 段 时 判断 。 


12.4 PRU SEND 和 PRU SEND EOF 请 求 


在 卷 2 第 811 页 中 ， 对 PRU_SEND 请 求 的 处 理 仅仅 是 先 调 用 sbappend， 然 后 再 调用 
tcp output, 在 T/TCP 中 ， 对 这 个 请 求 的 处 理 还 是 一 样 ， 只 是 代码 中 加 上 了 对 
PRU_SEND_EOF 请 求 的 处 理 ， 如 图 12-4 所 示 。 我 们 可 以 看 到 ， 对 TCP，PRU_SEND EOF 请 求 
是 在 指定 了 MSG_EOF 标 志 ( 见 图 5-2) 并 且 当 最 后 一 个 mbuf 发 送 给 协议 时 由 sosend 产 生 的 。 


tcp_usrreq.c 
189 case PRU SEND EOF: 
190 case PRU SEND: 
191 sbappend(&so-»so. snd, m); 
192 if (nam && tp-»t state < TCPS SYN SENT) ( 
193 AK 
194 * Do implied connect if not yet connected, 
195 * initialize window to default value, and 
196 * initialize maxseg/maxopd using peer's cached 
197 * MSS. 
198 +f 
199 error = tcp_connect (tp, nam); 
200 if (error) 
201 break; 
202 tp-»snd wnd = TTCP CLIENT SND WND; 
203 tcp mssrcvd(tp, -1); 
204 } 
205 if (req == PRU_SEND_EOF) { 
206 p 
207 * Close the send side of the connection after 
208 * the data is sent. 
209 * 7 
210 socantsendmore(so); 
211 tp - tcp usrclosed(tp); 
212 } 
213 if (tp !- NULL) 
214 error - tcp output(tp); 
215 break; 
tcp usrreq.c 


图 12-4 PRU_SEND 和 PRU SEND EOFifzk 


1. 隐 式 连接 建立 
192-202 如 果 nam 参 数 非 空 ， 进 程 就 调用 sendto 或 sendmsg， 并 指定 一 个 对 等 端 地 址 。 
如 果 连 接 状 态 是 CLOSED 或 LISTEN， 那 么 tcp_connect 就 执行 隐 式 连接 建立 。 初 始 发 送 窗 
口 设置 为 4 096(TTCP_CLIENT_SND_WND)， 因 为 在 TTCP 中 ， 客 户 端 可 以 在 收 到 服务 器 的 窗 
口 通告 以 前 就 发 送 数据 ( 见 3.6 节 )。 

2. 为 连接 设置 初始 MSS 
203-204 调用 tcp_mssrcvd 函 数 时 第 二 个 参数 为 -1， 表 示 我 们 还 没有 收 到 SYN， 所 以 用 
这 个 主机 的 缓存 值 (tao_mssopt) 作 为 初始 MSS。 当 tcp_mssrcvd 函 数 返 回 时 ， 根 据 缓存 的 
tao_mssopt 值 或 系统 管理 员 在 路 由 表 记 录 项 中 设置 的 值 (rt_metrics 结 构 中 的 rmx_mtu 
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成 员 ) 设 置 变量 t_maxseg 和 t_maxopd 的 值 。 如 果 并 且 当 收 到 服务 器 发 出 的 带 有 MSS 选 项 的 
SYN 时 ，tcp_mssrcvd 将 再 次 被 tcp_dooptions 调 用 。 因 为 在 收 到 对 等 端的 MSS 选 项 之 
前 就 发 出 了 数据 ， 现 在 T/TCP 需 要 在 收 到 SYN 之 前 就 在 TCP 控 制 块 中 设置 MSS 变 量 的 值 。 

3. 处 理 MSG _ EOF 标志 
205-212 如果 进 程 指 定 了 MSG_EOF 标 志 ， 这 时 socantsendmore 就 要 设置 插口 的 
SS_CANTSENDMORE 标 志 。 然 后 tcp_usrclosed 就 把 连接 状态 从 SYN_SENT( 由 
tcp_connect 设 置 ) 变 迁 到 SYN_SENT* 状 态 。 

4. 发 送 第 一 个 报 文 段 
213-214 tcp_output 检 查 是 否 应 该 发 送 报 文 段 。 在 T/TCP 客 户 端 刚 刚 指定 MSG_EOF 标 志 
调用 了 senato( 见 图 1-10) 时 ， 这 个 调用 就 发 出 一 个 报 文 段 ， 其 中 包含 SYN、 数 据 和 FIN。 


12.5 tcp usrclosed 函 数 


Net/3 中 ， 在 处 理 PRU_SHUTDOWN 请 求 时 ， 该 函数 由 tcp_disconnect 调 用 。 我 们 在 图 
12-4 中 可 以 看 到 ， 在 TITCP 中 ， 这 个 函数 也 被 PRU_SEND_EOF 请 求 调用 。 图 12-5 给 出 了 这 个 
函数 ， 替 代 卷 2 第 817 页 中 的 代码 。 


tcp_usrreq.c 
533 struct tcpcb * 
534 tcp usrclosed(tp) 
535 struct tcpcb *tp; 
536 ( 
537 switch (tp-»t state) ( 
538 case TCPS, CLOSED: 
539 case TCPS LISTEN: 
540 tp-»t state - TCPS CLOSED; 
541 tp - tcp close(tp); 
542 break; 
543 case TCPS SYN SENT: 
544 case TCPS SYN RECEIVED: 
545 tp-»t flags |- TF SENDFIN; 
546 break; 
547 case TCPS ESTABLISHED: 
548 tp-»t state = TCPS FIN WAIT 1; 
549 break; 
550 case TCPS CLOSE WAIT: 
551 tp-»t state = TCPS LAST ACK; 
552 break; 
553 ) 
554 if (tp && tp-»t state >= TCPS FIN WAIT 2) 
555 soisdisconnected(tp-»t inpcb-»inp socket); 
556 return (tp); 
557 } 
tcp usrreq.c 


图 12-5 tcp_usrclosed 国 数 
541-546 在 T/TCP 中 ， 通 过 设置 TF_SENDFIN 状 态 标 志 ， 用 户 在 SYN_SENT 或 SYN_RVD 


状态 下 发 起 关闭 过 程 ， 将 状态 变迁 到 相应 的 加 星 状态 。 其 余 的 状态 变迁 在 T/TCP 中 没有 
改变 。 


126 第 一 部 分 TCP*$H5x 


12.6 tcp sysct1 函 数 


在 为 T/TCP 而 做 修改 时 ， 用 sysct1 程 序 修改 TCP 变 量 的 能 力也 同时 加 上 了 。T/TCP 对 此 
功能 并 没有 严格 要 求 ， 但 这 个 功能 提供 了 改变 特定 TCP 变 量 值 的 一 个 简便 方法 ， 而 不 必 再 使 
用 调试 程序 对 内 核 进行 修补 。TCP 变 量 都 以 前 级 net .inet .tcp 来 标识 访问 。 在 TCP 
pzotosw 结 构 的 pr_sysct1 字 段 中 ( 卷 2 第 641 页 ) 记 录 着 指向 该 函数 的 一 个 指针 。 图 12-6 给 
了 这 个 函数 。 

570-572 目前 只 支持 三 个 变量 ,但 是 很 容易 加 上 更 多 的 变量 。 


tcp_usrreq.c 


561 int 
562 tcp sysctl(name, namelen, oldp, oldlenp, newp, newlen) 
563 int *name; 


564 u int namelen; 
565 void *oldp; 
566 size t *oldlenp; 
567 void *newp; 
568 size t newlen; 


569 ( 

570 extern int tcp do rfc1323; 

$71 extern int tcp do rfc1644; 

572 extern int tcp mssdflt; 

573 /* All sysctl names at this level are terminal. */ 

574 if (namelen !- 1) 

5175 return (ENOTDIR); 

576 switch (name[0]) ( 

577 case TCPCTL DO RFC1323: 

578 return (sysctl int(oldp, oldlenp, newp, newlen, &tcp do rfc1323)); 
579 case TCPCTL DO RFC1644: 

580 return (sysctl int(oldp, oldlenp, newp, newlen, &tcp do rfc1644)); 
581 case TCPCTL MSSDFLT: 

582 return (sysctl int(oldp, oldlenp, newp, newlen, &tcp mssdflt)); 
583 default: 

584 return (ENOPROTOOPT); 

585 ) 

586 /* NOTREACHED */ 

587 ) 


tcp usrreq.c 


图 12-6 tcp sysctl% 
12.7 T/TCP 的 前 景 


有 一 件 有 趣 的 事 ， 看 看 在 RFC 1323 中 定义 的 TCP 修 改 方案 的 普及 ， 实 际 上 是 关于 窗口 宽 
度 和 时 间 惟 选项 的 变化 。 这 些 变化 受 日 益 增 长 的 网 络 速度 (T3 电 话 线 路 和 FDDI) 以 及 潜在 的 长 
时 延 路 由 (卫星 线路 ) 等 的 驱动 。Thomas Skibo 为 SGI 工 作 站 所 完成 的 修改 是 最 早 的 实现 之 一 。 
然后 他 又 在 伯克利 Net/2 版 中 做 了 这 些 修改 ， 使 这 些 修 改 在 1992 年 5 月 可 以 公开 得 到 (图 1-16 中 
详细 给 出 了 各 个 BSD 版 本 之 间 的 区 别 及 其 发 行 时 间 )。 大 约 一 年 以 后 (1993 年 4 月 )，Bob Braden 
和 Liming Wei 公 布 了 SunOS 4.1.1 中 类 似 于 RFC 1323 的 源码 修改 。1993 年 8 月 ， 伯 克利 把 Skibo 
的 修改 加 到 了 4.4BSD 版 中 ， 这 使 公众 在 1994 年 4 月 可 以 得 到 4.4BSD-Lite 版 。 到 1995 年 ， 有 一 
些 销 售 商 已 经 加 上 了 对 RFC 1323889 xc fr, 另 有 一 些 销售 商 则 宣称 准备 加 上 对 RFC 1323 的 支持 。 
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但 RFC 1323 并 不 是 很 通用 的 ， 特 别 是 PC 机 上 的 实现 (事实 上 ， 在 14.6 节 中 我 们 会 看 到 ， 只 有 不 
到 2% 的 客户 遇 到 过 发 送 窗口 宽度 和 时 间 惟 选项 的 特殊 WWW 服 务 器 )。 

T/TCP 很 可 能 会 走 类 似 的 路 。1994 年 9 月 的 第 一 次 实现 ( 见 1.9 节 ) 只 是 对 SunOS 4.1.3 的 源码 
做 了 修改 ， 大 多 数 用 户 对 此 都 不 是 很 感 兴趣 ， 除 非 他 们 在 使 用 SunOS 的 源码 。 然 而 这 只 不 过 
是 T/TCP 设 计 者 的 一 个 参考 实现 。 普 遍 存 在 的 80 x 86 硬 件 平台 上 的 FreeBSD 实 现 ( 引 入 了 
SunOS 源 码 中 的 修改 部 分 ) 在 1995 年 的 早期 就 可 以 公开 得 到 了 ， 它 应 该 会 将 T/TCP 传 播 到 很 多 
的 用 户 。 

本 书 这 部 分 章节 的 目的 是 用 T/TCP 实 例 来 说 明 为 什么 T/TCP 是 对 TCP 的 很 有 价值 的 改进 ， 
给 出 文档 的 细节 并 解释 源码 的 变化 。 如 同 RFC 1323 中 的 修改 一 样 ，T/TCP 实 现 与 非 T/TCP 实 
现 可 以 互通 ,仅仅 当 两 端 同 时 都 支持 CC 选项 时 才 使 用 它 。 


12.8 小 结 


tcp_connect 函 数 是 新 的 ， 已 经 有 了 T/TCP 所 需 的 修改 ， 显 式 connect 要 调用 它 ， 隐 
式 连接 建立 (指定 目标 地 址 的 sendto 或 者 sendmsg) 也 调用 它 。 如 果 连 接 使 用 的 是 TTCP， 并 
且 持 续 时 间 短 于 MSL， 则 该 函数 允许 还 处 于 TIME_WAIT 状 态 的 连接 再 次 建立 新 连接 。 

PRU_SEND_EOF 请 求 是 新 的 ， 它 在 最 后 一 次 调用 协议 输出 并 且 应 用 程序 指定 了 MSG_EOF 
标志 时 由 插口 层 产生 。 该 请 求 允 许 采用 隐 式 连接 建立 ， 并 且 在 指定 了 MSG_EOF 标 志 时 还 调用 
tcp usrclosed, 

对 tcp_usrclosed 函 数 所 做 的 唯一 修改 是 允许 一 个 进程 可 以 关闭 尚 处 于 SYN_SENT 或 
SYN_RCVD 状 态 的 连接 。 这 时 要 设置 隐藏 标志 TF_SENDFIN。 








第 13 章 HTTP: 超 文本 传输 协议 


13.1 概述 


超 文本 传输 协议 (Hypertext Transfer Protocol，HTTP) 是 万 维 网 (World Wide Web, WWW, 也 
简称 为 Web) 的 基础 。 本 章 我 们 介绍 HTTP 协 议 ， 在 下 一 章 讨 论 一 个 实际 的 Web 服 务 器 的 运作 ， 它 
综合 运用 了 卷 1 和 卷 2 中 的 许多 有 关 实 际 应 用 的 内 容 。 但 本 章 并 不 介绍 Web 或 如 何 使 用 Web 浏 览 器 。 

NFSnet 上 骨干 网 提供 的 统计 数据 ( 见 图 13-1) 表 明 ， 自 1994 年 1 月 以 来 ,使 用 HTTP 协 议 的 增长 
速度 令 人 吃惊 。 0 





图 13-1 NFSnet 骨 干 网 上 各 种 协议 的 分 组 数量 百分比 


以 上 这 些 百 分 数 是 基于 分 组 数量 统计 得 来 的 ， 而 不 是 基于 字 节 数 的 (这 些 统计 数据 均 可 从 
ftp://ftp.merit.edu/statistics 获 得 )。 随 着 HTTP 协 议 所 占 百 分 比 的 上 升 ，FTP 和 
Telnet 的 比例 在 下 降 。 同 时 我 们 注意 到 ， 分 组 的 总 数量 在 整个 1994 年 都 在 上 升 ， 而 1995 年 初 开 
始 下 降 。 这 是 因为 1994 年 12 月 有 其 他 的 骨干 网 开始 取代 NFSnet 上 骨干 网 。 不 过 ,分 组 数 的 百 分 
比 仍 然 有 效 ， 它 表明 使 用 HTTP 协 议 的 通信 量 在 增加 。 

Web 的 简单 结构 如 图 13-2 所 示 。 

如 上 图 示 ，Web 客 户 (通常 称 为 浏览 器 ) 与 Web 服 务 器 使 用 一 个 或 多 个 TCP 连 接 进行 通信 。 
知名 的 Web 服 务 器 端口 是 TCP 的 80 号 端口 。Web 浏 览 时 客户 端 与 服务 器 在 TCP 连 接 上 进行 通信 ， 
所 采用 的 协议 就 是 本 章 描述 的 HTTP， 即 超 文 本 传送 协议 。 我 们 也 可 看 出 ， 一 个 Web 服 务 器 可 
以 通过 超 文本 链接 “指向 ” 另 一 Web 服 务 器 。Web 服 务 器 上 的 这 些 链 接 并 不 是 只 可 以 指向 Web 
服务 器 ， 还 可 以 是 其 他 类 型 的 服务 器 ， 例 如 : 一 台 FTP 或 是 Telnet 服 务 器 。 

尽管 HTTP 协 议 从 1990 就 开始 使 用 ， 但 第 一 个 可 用 的 文档 出 现在 1993 年 ([Berners-Lee 
1993] 大 致 描述 了 HTTP 协 议 的 1.0 版 本 )， 但 是 该 Internet 草 案 早 就 过 期 了 。 虽 然 有 新 的 可 用 的 
文档 ([Berners-Lee, Fielding 和 Nielsen 1995]) 出 现 ， 但 是 仍 目 只 是 一 个 Internet 草 案 。 

[Berners-Lee, Connolly 1995] 中 描述 了 一 种 从 Web 服 务 器 返回 给 客户 进程 的 文档 ， 称 为 
HTML( 超 文本 标记 语言 ) 文 档 。Web 服 务 器 还 返回 其 他 类 型 的 文档 (图 像 ，PostScript 文 件 ， 无 
格式 文本 文件 ， 等 等 )， 我 们 将 在 本 章 的 后 面 举例 说 明 这 些 文档 。 
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^ 超 文本 链接 
Web 服 务 器 iecur WeblRdzR-------—. : 
TCP 端 口 80 TCP 端 TCP 端 口 80 


TCP TCP 连 接 


Web 客 户 
(浏览 器 ) 


图 13-2 ”Web 客户 一 服务 器 结构 


下 一 节 我 们 将 简要 介绍 HTTP 协 议和 HTML 文 档 ， 随 后 对 协议 进行 详细 描述 。 然 后 我 们 讨 
论 一 个 流行 的 浏览 器 (Netscape) 是 怎样 使 用 该 协议 的 ，HTTP 协 议 使 用 TCP 的 一 些 统计 数据 和 
HTTP 协 议 的 一 些 性 能 问题 。[Stein 1995] 讨 论 了 运作 一 个 Web 站 点 的 许多 有 关 细 节 。 


13.2 HTTP 和 和 HTML 概述 







HTTP 是 一 个 简单 的 协议 。 客 户 进程 建立 一 条 同 服务 器 进程 的 TCP 连 接 ， 然 后 发 出 请 求 并 
读 取 服 务 器 进程 的 响应 。 服 务 器 进程 关闭 连接 表示 本 次 响应 结束 。 服 务 器 进程 返回 的 文件 通 
常 含有 指向 其 他 服务 器 上 文件 的 指针 ( 超 文本 链接 )。 用 户 显然 可 以 很 轻松 地 沿 着 这 些 链接 从 一 
个 服务 器 到 下 一 个 服务 器 。 

客户 进程 (浏览 器 ) 提 供 简 单 、 漂 亮 的 图 形 界 面 。HTTP 服 务 器 进程 只 是 简单 返回 

客户 进程 所 请 求 的 文档 ， 因 此 HTTP 服 务 器 软件 比 HTTP 客 户 软件 要 小 得 多 。 例 如 ， 

NCSA 版 本 1.3 的 Unix 服 务 器 由 大 约 6500 行 C 代 码 写 成 ， 而 X Window 环 境 下 的 Unix 

Mosaic 2.5 浏 览 器 有 约 80 000 行 C 代 码 。 


我 们 可 以 用 一 个 简单 的 方法 来 了 解 许 多 Internet 协 议 是 怎么 工作 的 : 那 就 是 运行 一 个 Telnet 
的 客户 程序 与 相应 的 服务 器 程序 通信 。 这 种 方法 对 HTTP 协 议 也 是 可 行 的， 这 是 因为 客户 进程 
发 送 给 服务 器 进程 的 语句 包含 有 ASCII 命 令 (以 回 车 和 紧 跟 的 换行 符 表 示 结 束 ， 称 为 CR/LEF)， 
服务 器 进程 返回 的 内 容 也 是 以 ACSII 字 符 行 开 始 。HTTP 协 议 使 用 的 是 8 bit 的 ISO Latin 1 字符 
集 ， 该 字符 集 由 ASCII 字 符 及 一 些 西欧 语言 中 的 字符 组 成 (以 下 网 站 可 以 找到 各 种 字符 集 的 信 
E: http://unicode.drg). 

下 面 是 我 们 获取 Addison-Wesley 主 页 的 例子 。 


sun $ telnet www.aw.com 80 连接 到 服务 器 的 80 号 端口 


Trying 192.207.117.2... 由 Teinet 客 户 输出 
Connected to aw.com. 由 Telnet 客 户 输出 
Escape character is '^]'. 由 Telnet 客 户 输 出 

GET / 我 们 只 输入 了 这 一 行 
<HTML> Web 服 务 器 输出 的 第 一 行 
<HEAD> 

«TITLE»AW's HomePage</TITLE> 

</HEAD> 


<BODY> 
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<CENTER><IMG SRC = "awplogob.gif" ALT=" "»«BR»«/CENTER» 
«P»«CENTER»«Hl»Addison-Wesley Longman«/H1»«/CENTER» 
Welcome to our Web server. 

ute 这 里 我 们 省 略 了 33 行 输出 
«DD»«IMG ALIGN-bottom SRC-"ball whi.gif" ALT=" "> 


Information Resource 
<A HREF = "http://www.ncsa.uiuc.edu/SDG/Software/Mosaic/MetaIndex.html"» 
Meta-Index</A> 
eb 这 里 我 们 省 略 了 4 行 输 出 
«/BODY» 
</HTML> 


Connection closed by foreign host. 由 Telnet 客 户 输出 


我 们 只 输入 了 GET /， 服 务 器 却 返 回 了 51 行 ， 共 3611 字 节 。 这 样 ， 从 该 Web 服 务 器 的 根 目 
录 下 取得 了 它 的 主页 。Telnet 的 客户 进程 输出 的 最 后 一 行 信息 表示 服务 器 进程 在 输出 最 后 一 行 
后 关闭 了 TCP 连 接 。 

一 个 完整 的 HTML 文 档 以 <HTML> 开 始 ， 以 </HTML> 结 束 。 大 部 分 的 HTML 命 令 都 像 这 样 
成 对 出 现 。HTML 文 档 含 有 以 <HEAD> 开 始 、 以 </HEAD> 结 束 的 首部 和 以 <BODY> 开 始 、 以 
</BODY> 结 束 的 主体 部 分 。 标 题 通常 由 客户 程序 显示 在 窗口 的 顶部 。[Raggett, Lam, and 
Alexander 1996] 中 详细 讨论 了 HTML。 

下 面 这 一 行 指 定 了 一 张 图 片 ( 本 例 中 为 公司 的 标识 )。 

<CENTER><IMG SRC = "awplogob.gif" ALT=" "><BR></CENTER> 

<CENTER> 标 志 告 诉 客户 程序 将 该 图 片 放 在 屏幕 中 央 ，<IMG> 标 志 含 有 该 图 片 的 相关 信 
息 。 客 户 程序 要 取得 该 图 片 的 文件 名 由 SRC 指 示 ，ALT 给 出 当 使 用 纯 文本 客户 程序 时 要 显示 的 
字符 串 ( 本 例 中 是 一 个 空 字符 串 )。<BR> 实 现 强制 换行 。Web 服 务 器 程序 返回 这 个 主页 时 并 不 
返回 图 片 文 件 本 身 ， 它 只 返回 图 片 文件 的 文件 名 ， 客 户 程序 必须 打开 另 一 条 TCP 连 接 来 取得 
该 文件 (在 本 章 的 后 面 我 们 将 看 到 为 每 一 个 指定 的 图 像 申请 不 同 的 连接 将 增加 Web 的 负载 )。 

下 面 这 一 行 表示 开始 新 的 一 段 (<P>)。 

«P»«CENTER»«Hl»Addison-Wesley Longmanc/H1»«/CENTER» 

这 一 段位 于 窗口 的 中 央 ， 它 是 第 一 级 标题 (<H1>)。 客 户 程序 可 以 选择 怎样 显示 第 一 级 标题 ( 相 
对 应 的 有 2~7 级 标题 )， 通 常 采用 比 正常 更 大 更 粗 的 字体 显示 。 

从 上 面 可 以 看 出 ， 标 记 语 言 ( 如 HTMEL) 与 其 他 格式 化 语言 (如 Troff，TeX， 
PostScript) 之 间 的 区 别 。HTML 起 源 于 SMGL ， 即 标准 通用 标记 语言 (Standard 
Generalized Markup Language) (http://www.sgmlopen.org& à $ £ $375 X 
SGMEL 的 信息 )。HTML 指 定 了 文档 的 数据 和 结构 (本 例 中 为 一 个 1 级 标题 )， 但 是 没有 
指定 浏览 器 怎样 对 文档 进行 格式 化 。 
接着 我 们 先 忽 略 主页 中 跟 在 “Welcome” 后 面 的 很 多 问候 语 ， 看 下 面 几 行 : 


<DD><IMG ALIGN-bottom SRC-"ball whi.gif" ALT-" "> 
Information Resource 


<A HREF = "http://www.ncsa.uiuc.edu/SDG/Software/Mosaic/MetaIndex.html"» 
Meta-Index</A> 


其 中 <DD> 指 明 一 张 定义 表 的 入 口 。 该 入 口 以 一 张 图 片 (一 个 白 球 ) 开 始 ， 后 面 跟 着 文字 
"Information Resource Meta-Index"， 最 后 一 部 分 指明 一 个 超 文 本 链接 (<A> 标 志 ) 和 一 个 以 
"http://www.ncsa.uiuc.edu'" 开 头 的 超 文本 引用 (HREF 属 性 )。 像 这 样 的 超 文 本 链接 通 
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常 在 客户 程序 中 被 加 上 下 划 线 或 以 不 同 的 颜色 来 显示 。 当 遇 到 上 面 所 示 的 图 像 ( 公 司 的 标志 ) 时 ， 
服务 器 不 会 返回 超 链接 引用 的 该 图 像 或 HTML 文 档 。 客 户 程序 通常 会 立即 下 载 图 像 并 显示 在 
主页 上 ， 但 对 于 超 文本 链接 ， 除 非 用 户 点 击 (也 就 是 说 ， 把 鼠标 移 到 该 链接 上 并 单 击 )， 否 则 客 
户 程序 通常 不 加 处 理 。 当 用 户 点 击 了 该 链接 ， 客 户 程序 将 打开 一 个 到 www.ncsa.uiuc.edu 
站 点 的 HTTP 连接， 并 执行 GET， 得 到 指明 的 文档 。 

类 似 http://www.ncsa.uiuc.edu/SDG/Software/Mosaic/MetaIndex.html 
这 样 的 表示 被 称 为 URL: 统一 资源 定位 符 (Uniform Resource Locator)。URL 的 详细 说 明和 意 
义 在 RFC 1738 [Berners-Lee, Masinter and McCahill 1994], 和 RFC 1808 [Fielding 1995] 中 给 出 。 
UREL 是 另 一 个 重要 的 机 制 ， 统一 资源 标识 符 URI(Uniform Resource Identifier) 的 一 部 分 ，URI 
还 包括 通用 资源 名 称 URN(Universal Resource Name), RFC 1630 [Berners-Lee 1994] 中 描述 了 
URI。URN 试 图 比 URL 做 得 更 好 ， 但 还 没有 制定 出 来 。 

大 多 数 浏览 器 都 提供 查看 Web 页 面 HTML 源 文件 的 功能 ， 例 如 ，Netscape 和 
Mosaic 都 提供 “View Source” 的 特性 。 


13.3 HTTP 


上 节 的 例子 中 ， 客 户 程序 发 出 的 GET /命令 是 HTTP 版 本 0.9 的 命令 ， 大 多 数 服务 器 均 支 持 
这 个 版 本 (为 了 提供 向 后 兼容 性 )。 但 目前 HTTP 的 版 本 是 1.0。 因 为 1.0 版 本 HTTP 协 议 的 客户 程 
序 在 请 求 命令 行 中 指出 版 本 号 ， 例 如 : 

GET / HTTP/1.0 

因此 服务 器 能 得 知客 户 程序 所 采用 的 HTTP 协 议 的 版 本 。 本 节 我 们 将 更 详细 地 了 解 
HTTP/1.0。 


报 文 类 型 : 请 求 与 响应 


HTTP/1.0 报 文 有 两 种 类 型 : 请 求 和 响应 。HTTP/1.0 请 求 的 格式 是 : 

request-line $ 

headers (0 或 有 多 个 ) 

«blank line» 

body (只 对 POST 请 求 有 效 ) 

request-line 的 格式 是 : 

request request-URI HTTP 版 本 号 

支持 以 下 三 种 请 求 : 

1) GET 请 求 ， 返 回 request-URI 所 指出 的 任意 信息 。 

2) HEAD 请 求 ， 类 似 于 GET 请 求 ， 但 服务 器 程序 只 返回 指定 文档 的 首部 信息 ， 而 不 包含 实 
际 的 文档 内 容 。 该 请 求 通常 被 用 来 测试 超 文 本 链接 的 正确 性 、 可 访问 性 和 最 近 的 修改 。 

3) POST 请 求 ， 用 来 发 送 电子 邮件 、 新 闻 或 者 能 由 交互 用 户 填 写 的 表格 。 这 是 唯一 需要 在 
请 求 中 发 送 body 的 请 求 。 使 用 PosT 请 求 时 需要 在 报 文 首部 Content -Length 字 段 中 
指出 body 的 长 度 。 

对 一 个 繁忙 的 Web 服 务 器 进行 采样 ， 统 计 结 果 表 明 : 500 000 个 客户 程序 的 请 求 中 有 
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99.68% 是 GET 请 求 ，0.25% 是 HEAD 请 求 ，0.07% 是 POST 请 求 。 当 然 ， 如 果 是 在 一 个 接受 比萨 
饼 定购 的 站 点 上 ，PosT 请 求 的 百分比 将 会 更 高 。 
HTTP/1.0 响 应 的 格式 是 ; 
status-line 
headers (0 个 或 有 多 个 ) 
«blank line» 
body 
status-line 的 格式 是 : 
HTTP 版 本 号 response-code response-phrase 
下 面 我 们 就 要 讨论 这 几 个 字段 。 


首部 字段 


HTTP/1.0 的 请 求 和 响应 报 文 的 首部 均 可 包含 可 变数 量 的 字段 。 用 一 个 空 行将 所 有 首部 字 
段 与 报 文 主体 分 隔 开 来 。 一 个 首部 字段 由 字段 名 (如 图 13-3 所 示 ) 和 随后 的 冒号 、 一 个 空格 和 字 
段 值 组 成 ， 字 段 名 不 区 分 大 小 写 。 

报 文 头 可 分 为 三 类 : 一 类 应 用 于 请 求 ， 一 类 应 用 于 响应 ， 还 有 一 类 描述 主体 。 有 一 些 报 
文 头 (例如 : Date) 既 可 用 于 请 求 又 可 用 于 响应 。 描 述 主体 的 报 文 头 可 以 出 现在 POST 请 求 和 所 
有 了 响应 报 文 中 。 图 13-3 列 出 了 17 种 不 同 的 报 文 头 ， 它 们 在 [Berners-Lee，Fielding, and Nielsen 
1995] 中 均 有 详细 的 描述 。 未 知 的 报 文 头 字段 将 被 接收 者 忽略 。 我 们 讨论 完 响 应 代码 后 将 回 过 
头 来 看 几 个 通用 的 报 文 头 例子 。 


首部 名 称 
Allow 
Authorization 
Content-Encoding 
Content-Length 
Content-Type 
Date . . 
Expires 
From . 
If-Modified-Since . 
Last-Modified 
Location e. 
MIME-Version ° . 
Pragma . . 
Referer . 
Server 
User-Agent 
WWW-Authenticate 



































图 13-3 HTTP 报 文 首部 的 名 称 


响应 代码 

服务 器 程序 响应 的 第 一 行 叫 状 态 行 。 状 态 行 以 HTTP 版 本 号 开始 ， 后 面 跟着 3 位 数字 表示 
响应 代码 ， 最 后 是 易 读 的 响应 短语 。 图 13-4 列 出 了 3 位 数字 的 响应 代码 的 含义 。 根 据 第 一 位 可 
以 把 响应 分 成 5 类 。 
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使 用 这 种 3 位 的 响应 代码 并 不 是 任意 的 选择 。 我 们 将 看 到 NNTP( 见 图 15-2) 及 其 他 
的 Internet 应 用 如 FTP、SMTP 也 使 用 这 些 类 型 的 响应 代码 。 


信息 型 ， 当 前 不 用 

成 功 : 

OK， 请 求 成 功 

OK， 新 的 资源 建立 (POST 命令 ) 

请 求 被 接受 ， 但 处 理 未 完成 

OK ， 但 设 有 内 容 返 回 

重 定向 ， 需 要 用 户 代理 执行 更 多 的 动作 ， 
所 请 求 的 资源 已 被 指派 为 新 的 固定 URL 
所 请 求 的 资源 临时 位 于 另外 的 URL 
文档 没有 修改 (条 件 GET) 

客户 差错 : 

错误 的 请 求 

未 被 授权 ， 该 请 求 要 求 用 户 认证 

不 明 原 因 的 禁止 

没有 找到 

服务 器 差错 : 

内 部 服务 器 差错 

没有 实现 

错误 的 网 关 ， 网 关 或 上 游 服务 器 来 的 无 效 响应 
服务 暂时 失效 


图 13-4 HTTP 3 位 响应 码 











各 种 报 文 头 举例 


如 果 我 们 使 用 HTTP/1.0 来 获取 上 节 列 出 的 主页 中 所 引用 的 标识 图 ， 则 需要 执行 以 下 一 些 
操作 : 

sun % telnet www.aw.com 80 

Trying 192.207.117.2... 


Connected to aw.com. 
Escape character is '^]'. 


GET /awplogob.gif HTTP/1.0 我 们 输入 了 这 一 行 
From: rstevensGnoao.edu 以 及 这 一 行 

然后 输入 一 个 空 行 表示 请 求 结束 
HTTP/1.0 200 OK 服务 器 响应 的 第 一 行 


Date: Saturday, 19-Aug-95 20:23:52 GMT 
Server: NCSA/1.3 
MIME-version: 1.0 
Content-type: image/gif 
Last-modified: Monday, 13-Mar-95 01:47:51 GMT 
Content-length: 2859 
空 行 表示 服务 器 响应 头 部 的 结束 

c— 这 里 收 到 了 2859 字 节 的 二 进 制 GIF 图 像 

Connection closed by foreign host. 由 Telnet 客 户 输出 


。 在 GET 请 求 中 指出 版 本 1.0。 
。 发 送 一 个 可 以 被 服务 器 记录 的 简单 的 报 文 头 :， From, 
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“服务 器 返回 的 状态 行 给 出 了 版 本 号 、 响 应 代码 200 和 响应 短语 “OK ”。 

“Date 报 文 头 给 出 服务 器 上 的 时 间 和 上 日期， 通常 是 格林 尼 治 时 间 。 上 例 中 服务 器 返回 一 
个 老式 时 间 串 。 推 荐 的 格式 是 : 缩写 的 天 ， 日 期 中 不 含 连 字符 ，4 位 数 的 年 。 例 如 : 
Date: Sat, 19 Aug 1995 20:23:52 GMT 

。 服 务 器 程序 的 类 型 和 版 本 号 分 别 是 : NCSA Server 版 本 1.3。 

。MIME 版 本 是 1.0。 在 卷 1 的 28.4 节 和 [Rose 1993] 中 有 较 多 关于 MIME 的 内 容 。 

。 报 文体 的 数据 类 型 由 Content -Type 和 Content -Encoding 字 段 指出 。Content- 
TYPpe 指 出 的 是 类 型 ， 类 型 后 跟 一 “/” ， 然 后 是 子 类 型 。 本 例 中 类 型 是 image ， 子 类 型 
是 gif。HTTP 使 用 的 Internet 媒 体 类 型 在 最 近 的 Assigned Number RFC 文 档 中 定义 (本 书 
写作 时 最 新 的 文档 是 : [Reynolds and Postel 1994]), 

其 他 的 典型 值 是 : 

Content-Type: text/html 


Content-Type: text/plain 
Content-Type: application/postscript 


如 果 报 文 主体 是 经 过 编码 的 ， 则 Content -Encoding 报 文 头 也 会 出 现 。 例 如 :; 如 果 返 
回 的 报 文中 含有 经 过 Unix 的 compress 程 序 压 缩 的 PostScript 文 件 ( 通 常 带 有 .ps .2 后 缀 )， 下 
面 的 两 种 报 文 头 会 同时 出 现 : 


Content-Type: application/postscript 
Content-Encoding: x-compress 


。Last-Modified 指 出 了 最 后 一 次 修改 资源 的 时 间 。 

。 图 像 文件 的 长 度 (2859 字 节 ) 在 Content -Length 报 文 头 中 指出 。 

在 最 后 一 个 响应 报 文 首部 的 后 面 ， 服 务 器 程序 紧 跟着 图 像 后 发 送 了 一 个 空 行 (一 个 回 车 / 换 
行 对 )。 因 为 HTTP 协 议 交 换 8 位 的 字 节 数据 ， 所 以 可 以 通过 TCP 连 接 发 送 二 进 制 数据 。 这 点 不 
同 于 其 他 的 Internet 应 用 ， 特 别 是 SMTP 协 议 ( 卷 1 的 第 28 章 )， 它 通过 TCP 连 接 传 输 7 位 的 ASCII 
字符 ， 显 式 地 将 每 字 节 的 高 位 设置 为 0， 阻 止 了 二 进 制 数据 的 交换 。 

User-agent 是 公用 的 客户 程序 报 文 头 ， 它 用 来 标识 客户 程序 的 类 型 。 下 面 是 一 些 公用 
报 文 头 的 例子 : 


User-Agent: Mozilla/1.1N (Windows; I; 16bit) 
User-Agent: NCSA Mosaic/2.6b1 (X11;SunOS 5.4 sunám) libwww/2.12 modified 


例子 : 客户 程序 缓存 


许多 客户 程序 根据 获取 文件 中 的 日 期 和 时 间 在 硬盘 上 缓存 HTTP 文 档 。 如 果 客 户 程序 要 获 
取 的 文档 已 存储 在 客户 程序 的 缓存 中 ， 则 客户 程序 将 发 送 IE-Modified-Since 报 文 首部 。 
这 样 ， 如 果 服 务 器 程序 发 现 该 文档 没有 发 生 任何 变化 ， 就 无 须 再 发 送 一 次 该 文档 了 。 这 称 为 
条 件 GET 请 求 。 


sun $ telnet www.aw.com 80 

Trying 192.207.117.2... 

Connected to aw.com. 

Escape character is '^]'. 

GET /awplogob.gif HTTP/1.0 

If-Modified-Since: Saturday, 08-Aug-95 20:20:14 GMT 
用 空 行 结束 客户 请 求 

HTTP/1.0 304 Not modified 
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Date: Saturday, 19-Aug-95 20:25:26 GMT 
Server: NCSA/1.3 
MIME-version: 1.0 


空 行 表示 服务 器 响应 头 部 的 结束 
Connection closed by foreign host. 
上 例 中 响应 报 文 的 响应 代码 为 304， 它 表示 文档 没有 变化 。 从 TCP 协 议 来 看 ， 这 样 做 避免 
了 将 文档 的 主体 (上 例 中 是 一 个 2859 字 节 的 GIF 图 像 ) 从 服务 器 程序 传送 给 客户 程序 。 但 是 余下 
的 TCP 连 接 的 开销 (三 次 担 手 、 终 止 连接 的 四 个 分 组 ) 还 是 必需 的 。 


例子 : 服务 器 重 定向 


下 面 是 一 个 服务 器 重 定向 的 例子 。 我 们 试 着 去 获取 作者 的 主页 ， 但 是 故意 省 略 最 后 的 “/” 
(这 是 用 来 指定 目录 的 URL 所 必需 的 一 部 分 )。 

sun $ telnet www.noao.edu 80 

Trying 140.252.1.11... 

Connected to gemini.tuc.noao.edu. 

Escape character is '^]'. 

GET /-rstevens HTTP/1.0 

用 空 行 结束 客户 请 求 

HTTP/1.0 302 Found 

Date: Wed, 18 Oct 1995 16:37:23 GMT 

Server: NCSA/1.4 

Location: http://www.noao.edu/-rstevens/ 


Cont t- g t/html 
SP EEEE EEN 空 行 表示 服务 器 响应 头 部 的 结束 


«*HEAD»«TITLE»Document moved«/TITLE»«/HEAD» 

«BODY»«Hl»Document moved«/Hl» 

This document has moved «A HREF-"http://www.noao.edu/-rstevens/"»here«/A».«P» 
«/BODY» 

Connection closed by foreign host. 


例子 中 响应 报 文 的 响应 代码 为 302， 表 示 所 请 求 的 URL 已 经 被 移动 。Location 报 文 首部 
指出 了 以 “/” 结 尾 的 新 位 置 。 许 多 浏览 器 能 自动 去 连接 这 个 新 的 URL。 但 如 果 浏 览 器 不 愿意 
自动 去 访问 这 个 新 的 URL， 服 务 器 程序 也 将 返回 一 个 可 供 浏 览 器 显示 的 HTML 文 件 。 


13.4 一 个 例子 


下 面 有 一 个 使 用 流行 的 Web 客 户 程 序 (Netscape 1.1N) 的 详细 例子 ， 通 过 它 我 们 来 逐一 查看 
HTTP 和 TCP 的 使 用 。 我 们 从 Addison-Wesley 的 主页 (http://www.aw.com) 开 始 ， 然 后 到 它 
指向 的 三 个 链接 (都 在 www .aw.com 上 )， 最 后 到 卷 1 中 描述 过 的 页 面 上 结束 。 共 使 用 17 条 TCP 
连接 ， 客 户主 机 发 送 3132 字 节 ， 服 务 器 主机 返回 47 483 字 节 。 在 17 条 连接 中 ，4 条 是 为 了 传输 
HTML 文 档 ( 共 28 159 字 节 )， 还 有 13 条 是 传输 GIF 图 像 ( 共 19 324 字 节 )。 在 进行 这 个 会 话 前 ， 先 
清除 硬盘 上 的 Netscape 使 用 的 缓存 ， 人 迫使 客户 程序 从 服务 器 重新 取得 所 有 文件 。 我 们 还 在 客 
户主 机 上 运行 Tcpdump 软 件 ， 记 录 客 户 程序 发 送 和 接收 的 所 有 报 文 段 。 

如 我 们 所 预期 的 ， 第 一 条 TCP 连 接 是 访问 主页 (GET/)， 主 页 的 HTML 文 档 共 涉及 了 7 个 
GIF 图 像 。 客 户 程 序 收 到 这 个 主页 后 ， 马 上 并 行 地 打开 4 条 TCP 连 接 去 获取 前 4 个 GIF 图 像 。 这 
是 Netscape 程 序 为 了 减少 打开 主页 总 时 间 的 一 种 方法 (大 多 数 Web 客 户 程序 并 不 像 这 样 ， 而 是 
只 能 一 次 下 载 一 个 图 像 )。 并 行 连接 数量 可 由 用 户 来 配置 ， 默 认 是 4 个 。 当 这 些 连 接 中 有 一 条 
结束 时 ， 客 户 程序 会 立即 打开 一 条 新 的 连接 来 获取 下 一 个 图 像 ， 直 到 客户 程序 取得 全 部 7 个 图 
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像 。 图 13-5 表 示 这 8 条 TCP 连 接 的 时 间 线 ，y 轴 是 时 间 ， 单 位 为 秒 。 

这 8 条 TCP 连 接 都 由 客户 程序 发 起 ， 依 次 使 用 1114~1121 的 8 个 端口 号 。 而 8 条 连接 均 由 服 
务 器 程序 关闭 。 我 们 把 客户 程序 发 送 最 初 的 SYN( 客 户 的 connect) 看 作 连 接 的 开始 ， 客 户 程 
序 收 到 服务 器 程序 的 FIN 后 发 送 FIN( 客 户 的 close) 认 为 是 连接 的 结束 。 取 得 这 个 主页 以 及 它 
所 涉及 的 所 有 7 个 图 像 共 需要 约 12 秒 的 时 间 。 

下 一 章 的 图 14-22 中 给 出 了 由 客户 程序 发 起 的 第 一 条 连接 (端口 号 1114) 的 Tecpdump 分 组 跟 
踪 情况 。 





00 

01 端口 号 : 1114 

02 

03 

04 

05 . 

06 T 1118 115 1117 
1116 

07 

08 一 | 一 

09 一 | 一 

10—— 1121 ine 1120 

11 

12 

时 间 CEP) 


图 13-5 一 个 主页 和 7 个 GIF 图 像 的 8 条 TCP 连 接 的 时 间 线 


注意 ， 端 口号 为 1115、1116、1117 的 三 条 连接 是 在 第 一 条 连接 (端口 号 为 1114) 结 
束 之 前 建立 的 ， 这 是 因为 Netscape 的 客户 程序 在 读 到 第 一 条 连接 上 的 文件 结束 标志 以 
后 ， 并 在 关闭 第 一 条 连接 之 前 发 起 三 条 无 阻塞 的 连接 。 实 际 上 ， 在 图 14-22 中 我 们 可 
以 注意 到 ， 客 户 程序 在 收 到 FIN 标 志 后 约 半 秒 钟 才 发 出 FIN 分 组 。 


同时 使 用 多 条 TCP 连 接 是 否 真 的 能 减少 交互 式 用 户 所 需 的 
处 理 时 间 昵 ”为 了 测试 这 一 点 ， 我 们 在 主机 sun 上 运行 
Netscape 客 户 程 序 ( 图 1-13), 还 是 来 获取 Addison-Wesley 的 主页 。 
但 这 台 主 机 是 采用 如 今 常用 的 方式 连接 Internet， 即 通过 拨号 调 
制 解 调 器 以 28.8 kb/s 的 速度 连接 Internet。 我 们 修改 客户 程序 的 
首选 文件 ， 对 客户 程序 最 大 的 连接 数 从 1 至 7 都 进行 了 测试 。 测 
试 时 关闭 了 客户 程序 的 硬盘 缓存 功能 。 在 每 一 种 最 大 连接 数 下 
客户 程序 均 运 行 三 次 ， 取 结果 的 平均 值 。 图 13-6 是 测试 结果 。 mise Web 安 户 程序 并 和 

从 图 中 可 以 看 出 ， 从 1 到 4， 随 着 连接 数 增 加 ， 总 时 间 在 减 连接 数 与 总 时 间 的 比较 
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少 。 但 是 如 果 用 Tcpdump 来 跟踪 这 种 交换 ， 我 们 会 发 现 ， 虽 然 用 户 可 能 把 连接 数 设 成 超过 4， 
但 是 程序 的 极限 是 4。 不 管 怎么 说 ， 超过 4 条 和 连接 后 增加 连接 数 对 总 时 间 即便 有 影响 也 是 很 小 ， 
不 如 从 1~2、2~3、3~4 那 么 明显 。 
图 13-5 所 示 的 总 时 间 比 图 13-6 所 示 的 最 短 时 间 (10.2 秒 ) 要 多 约 2 秒 ， 这 是 因为 客户 
主机 的 显示 硬件 速度 有 差异 。 图 13-6 所 示 的 测试 是 客户 程序 运行 在 一 台 工 作 站 上 ， 而 
图 13-5 所 示 的 测试 客户 程序 运行 在 一 台 显示 速度 和 运行 速度 均 较 慢 的 个 人 计算 机 上 。 
[Padmanabhan 1995] 指 出 了 多 连接 方法 的 两 个 问题 。 首 先 ， 这 样 做 对 其 他 协议 不 公平 。 例 
如 ，FTP 协 议 获取 多 个 文件 时 每 次 只 能 使 用 一 条 连接 (不 包括 控制 连接 )。 其 次 ， 当 在 一 条 连接 
上 遇 到 拥塞 并 执行 拥塞 避免 (在 卷 1 的 21.6 节 中 有 描述 ) 时 ， 拥 塞 避免 信息 不 会 传递 到 其 他 连接 
IS. 
对 客户 程序 来 说 ， 同 时 对 同一 主机 使 用 多 条 连接 实际 上 使 用 的 可 能 是 同一 条 路 
径 。 如 果 处 于 瓶颈 的 路 由 器 因为 拥塞 而 丢弃 某 条 连接 的 分 组 ， 那么 其 他 连接 的 分 组 
通过 该 路 由 器 时 也 同样 可 能 会 被 丢弃 。 
客户 程序 同时 使 用 多 个 连接 带 来 的 另 一 个 问题 是 容易 造成 服务 器 程序 未 完成 的 连接 队列 
溢出 ， 这 样 会 使 得 客户 主机 重 传 它 的 SYN 分 组 而 造成 较 大 的 时 延 。 下 一 章 我 们 讨论 Web 服 务 
器 时 ， 将 在 14.5 节 中 详细 讨论 服务 器 程序 的 未 完成 连接 队列 。 


13.5 _ HTTP 的 统计 资料 


在 下 一 章 中 我 们 将 仔细 讨论 TCP/IP 协 议 族 的 一 些 特性 和 怎样 在 一 个 繁忙 的 HTTP 服 务 器 上 
使 用 (和 误 用 ) 它 们 。 本 节 我 们 感 兴趣 的 是 一 个 典型 的 HTTP 连 接 到 底 是 怎么 回 事 。 我 们 将 使 用 
下 一 章 一 开始 要 讲 到 的 24 小 时 的 Tepdump 数 据 集 。 

图 13-7 列 出 了 对 近 130 000 个 独立 的 HTTP 连 接 进行 统计 的 结果 。 如 果 客 户 程序 非 正 常 关 闭 
连接 ， 例 如 电话 掉 线 等 ， 我 们 就 无 法 通过 Tcpdump 的 输出 计算 图 中 字 节 计数 的 中 间 值 (median) 
或 均值 (mean) 或 两 者 的 值 。 人 
值 比 正常 值 偏 高 。 


客户 发 送 的 字 节 数 /连接 | 


服务 器 发 送 的 字 节 /连接 
连接 持续 时 间 ( 秒 ) 





图 13-7 独立 的 HTTP 连 接 的 统计 


大 多 数 关 于 HTTP 连 接 的 统计 均 采 用 中 间 值 和 均值 。 中 间 值 能 较 好 地 体现 “正常 ”连接 的 
情况 ， 而 均值 则 会 因为 少数 长 文件 而 较 高 。[Mogul 1995b] 中 统计 了 200 000 个 HTTP 连 接 ， 发 
现 服 务 器 返回 数据 量 的 中 间 值 和 均值 分 别 为 1770 字 节 和 12 925 字 节 。 此 文 还 对 另 一 个 服务 器 
上 约 150 万 个 检索 进行 统计 ， 结 论 是 返回 数据 量 的 中 间 值 和 均值 分 别 为 958 字 节 和 2394 字 节 。 
[Braun and Claffy 1994] 列 出 的 对 NCSA 服 务 器 进行 统计 的 结果 是 中 间 值 为 3000 字 节 ， 均 值 为 
17 000 字 节 。 明 显 可 以 看 出 服务 器 返回 数据 量 的 大 小 取决 于 该 服务 器 上 所 提供 的 文件 ， 不 同 
的 服务 器 之 间 有 很 大 的 差别 。 
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用 户 会 在 一 个 HTTP 会 话 期 间 访问 给 定 服 务 器 的 多 个 文件 。 因 为 服务 器 可 利用 的 信息 就 是 客户 
主机 的 卫 地 址 ， 所 以 要 测量 HTTP 会 话 的 特性 比较 困难 。 多 个 用 户 能 在 同一 时 间 利 用 同一 客户 
主机 访问 同一 个 服务 器 。 此 外 ， 还 有 一 些 组 织 把 所 有 的 HTTP 客 户 请 求 集中 起 来 通过 少数 几 个 
服务 器 (有 时 结合 防火 墙 网 关 使 用 ) 去 访问 外 部 网 的 Web 服 务 器 ， 这 样 在 Web 服 务 器 端 看 起 来 很 
多 用 户 都 在 使 用 少数 几 个 了 下 地 址 (这 些 少数 的 服务 器 通常 称 为 代理 服务 器 ， 在 [Stein 1995] 的 第 
4 章 中 对 它 进行 了 讨论 )。 不 管 怎 么 说 ，[Kwan, McGrath, and Reed 1995] 还 是 试图 在 NCSA 服 
务 器 上 对 会 话 的 特性 进行 测定 ， 并 定义 一 个 会 话 最 长 持续 时 间 为 30 分 钟 。 在 这 30 分 钟 的 会 话 
中 平均 每 个 客户 执行 6 个 HTTP 请 求 ， 服 务 器 共 返 回 95 000 字 节 数 据 。 

本 节 中 提 到 的 统计 都 是 在 服务 器 端 进行 测量 的 ， 因 此 结论 都 受 服务 器 所 提供 的 HTTP 文 档 
类 型 的 影响 ， 例 如 ， 一 个 提供 庞大 气象 图 的 Web 服 务 器 平均 每 个 HTTP 会 话 所 返回 的 字 节 数 要 
比 一 个 主要 提供 文本 信息 的 服务 器 大 得 多 。 通 常 在 Web 上 跟踪 大 量 客户 程序 对 不 同 服务 器 的 
HTTP 请 求 能 获得 更 好 的 统计 结果 。[Cunha, Bestavros, and Crovella 1995] 中 提供 了 一 组 测量 数 
据 。 他 们 对 4 700 个 HTTP 会 话 进行 了 测试 ， 其 中 包括 591 个 不 同 用 户 对 575 772 个 文件 的 访问 。 
测量 的 结果 表明 这 些 文件 的 平均 长 度 为 11 500 字 节 , 同时 他 们 也 提供 了 不 同类 型 文件 (如 HTTP、 
图 像 、 声 音 、 视 频 、 文 本 等 ) 的 平均 长 度 。 通 过 其 他 测试 ， 他 们 发 现 文件 长 度 的 分 布 状态 曲线 
有 一 个 大 尾巴 ， 即 有 大 量 的 大 型 文件 ， 这 些 文 件 影响 了 文件 的 平均 字 节 数 。 他 们 发 现 大 量 被 
访问 的 是 小 文件 。 


13.6 性 能 问题 


随 着 HTTP 协议 使 用 的 增长 (图 13-1)， 它 对 Internet 产 生 了 广泛 而 重要 的 影响 。[Kwan， 
McGrath, and Reed 1995] 中 给 出 了 NCSA 服 务 器 上 HTTP 协 议 一 般 应 用 的 特性 。1994 年 ， 上 文 
的 作者 对 服务 器 的 日 志文 件 进 行 了 为 期 五 个 月 的 检查 后 得 出 了 一 些 结论 。 例 如 ， 他 们 注意 到 
58% 的 客户 请 求 是 由 个 人 计算 机 发 起 的 ， 这 类 请 求 的 每 月 增长 率 在 11%~14% 之 间 。 他 们 在 文 
中 还 提供 了 一 周 中 各 天 的 请 求 数量 、 平 均 连 接 时 间 等 统计 数据 。[Braun and Claffy 1994] 中 提 
供 了 对 NCSA 服 务 器 的 其 他 分 析 。 在 这 篇 论文 中 ， 作 者 还 讨论 了 HTTP 服 务 器 可 以 通过 缓存 经 
常 被 访问 的 文档 来 提高 性 能 。 

影响 交互 式 用 户 响 应 时 间 的 最 大 因素 是 HTTP 协 议 中 使 用 的 TCP 连 接 。 前 面 我 们 看 到 每 个 
要 传输 的 文档 使 用 一 个 TCP 连 接 。[Spero 1994a] 中 以 “HTTP / 1.0 与 TCP 交 互 不 协调 ”为 标 
题 对 这 个 问题 进行 了 描述 。 客 户 与 服务 器 之 间 的 RTT 和 服务 器 的 负载 是 影响 响应 时 间 的 其 他 
因素 。 

[Spero 1994a] 也 提出 连接 建立 较 慢 ( 卷 1 的 20.6 节 中 有 描述 ) 增 加 了 时 延 。 连 接 建立 时 间 主 
要 取决 于 客户 请 求 报 文 和 服务 器 的 MSS 通 告 报 文 (通过 Internet 的 客户 连接 ， 典 型 长 度 为 512 或 
536 字 节 ) 的 长 度 。 设 想 如 果 客 户 的 请 求 报 文 小 于 或 等 于 512 字 节 ， 一 个 MSS 报 文 的 长 度 为 512 
字 节 ， 那 么 连接 建立 时 间 就 不 会 长 了 (但 是 要 注意 ， 很 多 基于 伯克利 的 实现 中 的 对 mbuf( 在 
14.11 节 中 有 描述 ) 的 访问 会 引起 连接 建立 慢 的 问题 )。 当 客户 的 请 求 报 文 超过 服务 器 的 MSS 时 ， 
较 慢 的 建立 还 要 加 上 额外 的 RIT。 客 户 请 求 报 文 的 长 度 取决 于 浏览 器 软件 。[Spero 1994a] 中 提 
到 当 Xmoasic 浏 览 器 请 求 三 个 TCP 报 文 段 时 发 起 了 一 个 1130 字 节 的 请 求 报 文 (这 个 请 求 报 文 共 
有 42 行 ， 其 中 41 行 是 accept 报 文 首部 )。 在 13.4 节 的 例子 中 ，Netscape 1.1N 浏 览 器 共 发 起 17 
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个 请 求 ， 报 文 长 度 的 范围 是 150~197 字 节 ， 因 此 没有 发 生长 时 延 的 情况 。 图 13-7 列 出 了 客户 程 
序 请 求 报 文 长 度 的 中 间 值 和 平均 值 ， 从 中 可 以 看 出 大 多 数 客户 发 起 向 服务 器 的 请 求 不 会 引起 
长 时 延 ， 但 服务 器 的 应 答 报 文 则 会 引起 长 时 延 。 
我 们 刚刚 提 到 ，Mosaic 客 户 程序 会 发 出 许多 Rccept 报 文 首部 ， 但 这 些 报 文 首 部 

并 没有 在 图 13-3 中 列 出 来 (因为 它们 没有 在 [Berners-Lee, Fielding, and Nielsen 1995] 中 

出 现 )。 因 为 少数 服务 器 不 对 这 些 报 文 首部 做 任何 处 理 ， 所 以 在 这 个 Internet 草 案 中 没 

有 提 到 它们 。 这 些 报 文 首部 的 作用 是 告诉 服务 器 ， 客户 程 序 能 接受 哪些 数据 格式 ， 

如 GIF 图 像 、PostScript 文 件 等 。 但 也 有 少数 服务 器 提供 一 个 文档 的 不 同 格 式 的 副本 ， 

而 且 目 前 还 没有 提供 客户 程序 与 服务 器 协商 文档 内 容 的 方法 。 

另外 重要 的 一 点 是 : HTTP 连 接 通常 由 服务 器 关闭 ， 服 务 器 经 过 TIME_WAIT 时 延 后 关闭 
连接 ， 导 致 在 繁忙 的 服务 器 上 许多 控制 块 停留 在 该 状态 。 

[Padmanabhan 1995] 和 [Mogul 1995b] 中 建议 客户 与 服务 器 保持 一 个 打开 的 TCP 连 接 ， 而 
不 是 服务 器 在 发 出 响应 后 关闭 连接 。 当 服务 器 知道 生成 的 响应 报 文 的 长 度 时 才 可 以 这 样 做 ， 
回想 前 面 13.3 节 中 我 们 提 到 的 例子 ，Content-Length 报 文 首部 中 指出 GIF 图 像 的 大 小 。 否 
则 ， 服 务 器 必须 通过 关闭 连接 来 为 客户 程序 指出 响应 的 结尾 。 对 协议 做 这 样 的 修改 必须 同时 
修改 客户 端 和 服务 器 端 。 客 户 端 规定 Pragma: hold-connection 报 文 首部 ， 提 供 向 后 兼 
容 的 能 力 。 如 果 服 务 器 不 能 识别 这 种 Pragma， 就 会 忽略 它 ， 然 后 在 发 送 完 响应 后 关闭 连接 。 
这 种 Pragma 人 允许 新 客户 程序 在 尽 可 能 情况 下 保持 连接 ， 同 时 访问 新 的 服务 器 ， 还 允许 现 有 所 
有 客户 和 服务 器 交互 操作 。 


HTPP 协 议 的 下 一 版 本 (版 本 1.1) 中 可 能 会 支持 持续 的 连接 ， 虽 然 具 体 怎 么 做 可 能 
会 有 变化 。 
在 这 里 我 们 实际 上 提 到 了 当前 定义 的 三 种 服务 器 结束 响应 的 方法 。 最 好 的 办 法 
是 使 用 Content-Length 报 文 首部 ， 其 次 是 服务 器 发 送 一 个 带 有 boundary = A 
性 的 Content-Type 报 文 首部 ([Rose 1993] 的 6.1.1 节 中 给 出 了 怎样 使 用 这 种 属性 的 例 
子 ， 但 是 并 非 所 有 的 客户 程序 都 支持 这 种 特性 )。 最 差 的 选择 (但 最 广泛 运用 的 ) 便 是 
服务 器 关闭 连接 。 
Padmanabhan 和 Mogul 也 提出 两 种 新 的 客户 请 求 报 文 ， 用 来 允许 服务 器 流水 线 式 的 响应 。 
这 两 种 请 求 是 GETRLL( 服 务 器 将 在 单个 响应 内 返回 一 个 HTML 文 档 和 所 有 内 符 的 图 像 ) 和 
GETLIST( 类 似 客户 程序 执行 一 系列 的 GET 请 求 )。 当 客户 程序 确认 在 它 的 缓存 中 没有 所 要 请 
求 的 任何 文件 时 ， 可 以 使 用 GETALL 报 文 。 当 客户 程序 发 起 对 一 个 HTML 文 档 的 GET 请 求 后 ， 
用 GETLIST 命 令 可 以 取得 该 HTML 文 档 所 引用 的 、 不 在 缓存 中 的 所 有 文件 。 
HTTP 协 议 的 一 个 重要 问题 是 : 面向 字 节 的 TCP 数 据 流 与 面向 报 文 的 HTTP 服 务 不 匹配 。 
一 种 理想 的 解决 方法 是 : 在 TCP 协 议 之 上 制定 一 个 在 HTTP 客 户 和 服务 器 之 间 、 单 个 TCP 连 接 
之 上 、 提 供 面向 报 文 接口 的 会 话 层 协 议 。[Spero 1994b] 中 描述 了 这 样 一 种 称 为 HTTP-NG 的 解 
决 方法 。HTTP-NG 在 单个 TCP 连 接 上 提供 多 个 会 话 。 其 中 一 个 会 话 携带 控制 信息 (客户 请 求 和 
服务 器 响应 报 文 )， 其 他 的 会 话 从 服务 器 返回 所 请 求 的 文件 。 通 过 TCP 连 接 交 换 的 数据 包括 一 
个 8 字 节 的 会 话 首部 (包含 一 些 标志 位 、 一 个 会 话 ID 和 所 跟 数据 的 长 度 )， 会 话 首部 后 跟着 这 个 
会 话 的 数据 。 
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13.7 小 结 


HTTP 是 一 个 简单 的 协议 。 客 户 程序 与 服务 器 建立 一 个 TCP 连 接 ， 发 送 请 求 并 读 回 服务 器 
的 响应 。 服 务 器 通过 关闭 连接 来 指示 它 的 响应 结束 。 服 务 器 所 返回 的 文件 通常 含有 指针 ( 超 文 
本 链接 ) 指 向 一 些 位 于 其 他 服务 器 的 文件 。 用 户 可 以 轻松 地 跟随 这 些 链接 从 一 个 服务 器 到 另 一 
个 服务 器 。 

客户 请 求 是 简单 的 ASCII 文 本 ， 服 务 器 的 响应 也 是 以 ASCII 文 本 开始 (首部 )， 后 面 跟着 数 
据 ( 可 以 是 ASCII 或 二 进 制 数据 )。 客 户 程序 软件 (浏览 器 ) 分 析 服 务 器 的 响应 ， 并 把 它 格式 化 输 
出 ， 同 时 以 高 亮 显 示 指 向 其 他 文档 的 链接 。 

通过 HTTP 连 接 传输 的 数据 量 较 小 。 客 户 请 求 报 文 长 度 ， 为 几 百 字 节 ， 服 务 器 响应 报 文 的 
典型 值 也 在 儿 百 字 布 至 10 000 字 节 间 。 因 为 一 些 大 文档 (如 图 像 或 大 的 PostScript 文 件 ) 会 将 服 
务 器 响应 报 文 长 度 的 平均 值 拉 大 ， 所 以 HTTP 统 计 通 常 报告 中 间 值 。 许 多 研究 表明 ， 服 务 器 响 
应 报 文 长 度 的 中 间 值 小 于 3000 字 节 。 

HTTP 带 来 的 最 大 的 性 能 问题 是 每 个 文件 使 用 一 条 TCP 连 接 。 我 们 看 一 下 13.4 节 中 提 到 的 
例子 ， 为 了 打开 一 个 主页 ， 客 户 程序 建立 了 8 条 TCP 连 接 。 当 客户 请 求 报 文 的 长 度 超过 服务 器 
通告 的 MSS 时 ， 缓 慢 的 建立 使 每 一 个 TCP 连 接 增 加 了 额外 的 时 延 。 另 一 个 问题 是 : 服务 器 进 
程 正常 关闭 连接 将 引起 在 服务 器 主机 上 产生 TIME_WAIT 时 延 ， 在 一 个 繁忙 的 服务 器 上 可 以 看 
到 很 多 这 种 待 终止 的 连接 。 

我 们 比较 一 下 几乎 与 HTTP 协 议 同 时 开发 的 Gopher 协 议 。Gopher 协 议 的 文档 号 是 RFC 
1436[Anklesaria et al. 1993]。 从 网 络 的 观点 来 看 ，HTTP 与 Gopher 非 常 相似 。 客 户 程序 打开 一 
条 与 服务 器 的 连接 (Gopher 使 用 70 号 端口 )， 并 发 起 请 求 。 服 务 器 返回 带 有 应 答 的 响应 ， 并 关 
闭 连 接 。 它 们 的 主要 区 别 在 于 服务 器 送 回 给 客户 的 报 文 的 内 容 。 尽 管 Gopher 协 议 允 许 服 务 器 
返回 非 文 本 信息 ， 如 GIF 文 件 ， 但 大 多 数 Gopher 客 户 程 序 是 为 ASCII 终 端 设计 的 。 因 此 Gopher 
服务 器 返回 的 文档 ， 大 多 数 是 ASCII 文 本 文件 。 因 为 HTTP 协 议 有 明显 的 优势 ， 所 以 写作 本 书 
时 Internet 上 的 许多 站 点 已 关闭 了 它们 的 Gopher 服 务 程序 。 当 URL 为 gopher://hostname 
时 ， 也 有 很 多 Web 浏 览 器 能 识别 Gopher 协 议 ， 并 与 这 些 Gopher 服 务 器 通信 。 

HTTP 协 议 的 下 一 个 版 本 (HTTP / 1.1) 将 在 1995 年 12 月 作为 一 个 Internet 草 案 公 布 。 届 时 ， 
包括 认证 (MD5 签 名 )、 持 续 的 TCP 连 接 、 连 接 协 商 等 方面 均 将 有 所 增强 。 
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14.1 概述 


本 章 我 们 将 通过 分 析 一 个 繁忙 的 HTTP 服 务 器 上 所 处 理 的 分 组 ， 从 另外 的 角度 来 分 析 
HTTP 协 议 ， 同 时 还 将 对 Internet 协 议 族 中 的 一 些 特性 进行 一 般 性 的 分 析 。 这 样 我 们 就 能 把 卷 1 
和 卷 2 中 描述 的 TCP/PP 协 议 的 一 些 特性 与 现实 世界 中 的 联系 起 来 。 从 本 章 也 可 看 到 ，TCP 协 议 
的 行为 和 实现 的 变化 很 多 ， 有 时 甚至 明显 不 合理 。 本 章 有 很 多 主题 ， 我 们 把 它们 近似 地 按照 
TCP 连 接 动作 的 顺序 来 安排 : 连接 建立 、 数 据 传输 和 连接 终止 。 

我 们 是 从 一 个 商业 的 Internet 服 务 提供 商 的 系统 上 收集 数据 。 这 个 系统 为 22 个 组 织 提 供 
HTTP 服 务 ， 同 时 运行 NCSA httpd 服 务 器 的 22 个 副本 (我 们 将 在 下 一 节 中 讨论 运行 多 个 服务 
器 程序 )。 该 系统 的 CPU 是 Intel 奔 腾 处 理 器 ， 运 行 的 操作 系统 是 BSD / OS V1.1。 

我 们 收集 了 三 种 数据 : 

1) 在 连续 的 5 天 当中 每 小 时 运行 一 次 netstat 程 序 ， 运 行 该 程序 时 带 -s 选 项 ， 用 来 收集 

Internet 协 议 维护 的 所 有 计数 器 。 这 些 计数 器 在 卷 2 中 我 们 都 有 介绍 ， 如 第 164 页 (IP)、 
第 639 页 (TCP) 等 。 

2) 在 这 5 天 当中 Tcpdump 程 序 ( 见 卷 1 附录 A)24 小 时 运行 ， 记 录 所 有 发 出 的 和 从 80 端 口 来 
的 带 有 SYN、FIN 或 RST 标 志 的 TCP 分 组 。 这 样 ， 我 们 可 以 详细 考查 TCP 连 接 的 统计 结 
果 。 在 这 期 间 共 收 集 到 686 755 个 符合 上 述 条 件 的 分 组 ， 它 们 分 属于 147 103 次 TCP 连 
接 尝试 。 

3) 在 5 天 的 测量 中 ,做 了 一 次 为 期 2.5 小 时 的 统计 ， 记 录 所 有 发 出 的 和 从 80 端 口 来 的 TCP 分 
组 。 因 为 我 们 可 以 对 除了 带 有 SYN、FIN 或 RST 标 记 以 外 的 更 多 的 分 组 进行 检查 ， 所 以 
我 们 可 以 对 少数 特殊 情况 进行 更 详细 的 分 析 。 在 这 次 统计 中 共 记 录 了 1 039 235 个 分 组 ， 
平均 每 秒 115 个 。 

收集 24 小 时 内 的 SYS / FIN / RST 分 组 的 命令 是 : 

$ tcpdump -p -w data.out 'tcp and port 80 and tcp[13:1] & 0x7 != 0’ 

-Pp 标志 没有 把 网 络 接口 置 于 混合 (promiscuous) 模 式 ， 所 以 只 有 运行 Tcpdump 程 序 的 主机 
发 出 或 接收 的 分 组 才 可 能 被 捕捉 ， 这 也 正 是 我 们 所 需要 的 。 这 样 减少 了 从 本 地 网 络 中 收集 的 
数据 量 ， 同 时 也 使 Tcpdump 程 序 减少 了 分 组 的 丢失 。 

这 个 标志 没有 保证 非 混 合 模式 。 也 有 人 可 以 将 网 络 接口 设 为 混合 模式 。 
在 这 个 主机 上 多 次 长 时 间 运 行 Tcpdump， 报 告 的 分 组 丢失 情况 为 : 416 0004 X 

失 1 个 至 每 22 000 个 丢失 1 个 之 间 。 


-w 标 志 将 收集 结果 以 二 进 制 格 式 存 人 文件 ， 而 不 是 以 文本 方式 在 终端 上 输出 。 这 个 输出 
文件 的 二 进 制 数 据 随 后 可 以 用 -r 标 志 转 换 成 我 们 所 期 望 的 文本 文件 。 

只 有 发 出 的 或 从 80 端 口 来 的 TCP 分 组 才 被 收集 。 此 外 还 要 求 : 从 TCP 分 组 首部 开始 算 ， 取 
第 13 字 节 与 数字 7 进行 逻辑 与 运算 ， 结 果 必 须 为 0。 这 是 用 来 测试 SYN、FIN 或 RST 标 志 是 否 被 
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置 位 ( 见 卷 1 第 171 页 )。 通 过 收集 满足 上 述 条 件 的 分 组 ， 然 后 分 析 SYN 和 FIN 上 的 TCP 序 号 ， 我 
们 能 得 到 连接 的 每 个 方向 上 ， 传 输 数据 的 字 节 数 。Vern Paxson 的 tcpdump-reduce 软 件 就 
是 采用 了 这 种 简化 方式 (http://town.hall.org/Archive/pub/ITA)。 

我 们 给 出 的 第 一 张 图 (图 14-1) 是 5 天 中 尝试 连接 的 总 数 ， 包 括 主动 和 被 动 建立 的 连接 。 图 
中 表示 的 是 两 个 TCP 计 数 器 : tcps_connattempt 和 tcps_accepts 的 时 间 曲 线 ， 摘 自 卷 2 
第 639 页 。 当 为 了 打开 连接 而 发 送 一 个 SYN 分 组 时 ， 第 一 个 计数 器 加 一 ， 当 在 侦 昕 端口 收 到 一 
个 SYN 分 组 时 ， 第 二 个 计数 器 加 一 。 这 些 计数 器 对 主机 上 的 所 有 TCP 连 接 进 行 计数 ， 而 不 只 
是 HTTP 连 接 。 我 们 期 望 系 统 收 到 的 连接 请 求 比 它 发 出 的 连接 请 求 要 多 ， 因 为 系统 主要 提供 
Web 服 务 (当然 系统 也 用 作 其 他 用 途 ， 但 主要 的 TCP /IP 流量 是 由 HTTP 分 组 组 成 )。 
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系统 启动 后 所 经 过 的 时 间 (分 钟 ) 
图 14-1 主动 与 被 动 连接 尝试 次 数 累 计 
图 中 星期 五 正午 附近 和 星期 六 正午 附近 的 虚线 描绘 了 一 个 24 小 时 周期 ， 在 这 24 小 时 中 对 
SYN/FIN/RST 分 组 进行 了 跟踪 、 收 集 。 注 意 被 动 连接 尝试 的 次 数 曲 线 ， 它 的 斜率 像 我 们 所 预 
期 的 那样 在 正午 后 一 直到 午夜 前 都 比较 大 。 我 们 也 可 看 出 ， 从 星期 五 的 午夜 开始 到 周末 这 上 段 
时 间 ， 曲 线 的 斜率 一 直 在 减 小 。 我 们 绘 出 每 小 时 被 动 连接 尝试 次 数 的 曲线 ， 如 图 14-2 所 示 ， 
从 中 很 容易 看 出 每 天 的 周期 性 规律 。 
“繁忙 ”服务 器 的 定义 是 什么 ? 我 们 进行 分 析 的 系统 每 天 收 到 超过 150 000 个 TCP 连 
接 请 求 ， 这 相当 于 平均 每 秒 1.74 个 连接 请 求 。[Braun and Claffy 1994] 提 供 了 NCSA 服 务 器 
的 详细 情况 : 在 1994 年 9 月 ,平均 每 天 有 360 000 个 TCP 连 接 请 求 (这 个 数据 每 6~8 个 星期 
&i1— 4). [Mogul 1995b] 中 描述 了 两 个 被 作者 称 为 “相对 繁忙 ”的 服务 器 ， 其 中 一 个 是 
每 天 处 理 100 万 个 连接 请 求 ， 而 另 一 个 则 是 在 近 3 个 月 时 间 内 平均 每 天 收 到 40 000 个 连接 
请 求 。1995 年 6 月 21 日 的 《华尔街 》 杂 志 列 出 了 最 繁忙 的 10 个 Web 服 务 器 ， 统 计 了 从 
1995 年 5 月 1 日 至 7 日 之 间 对 它们 的 点 击 次 数 ， 最 高 的 达 每 周 430 万 次 
(www.netscape.corm， 最 低 的 每 天 也 有 30 万 次 。 说 了 这 么 多 ， 我 们 还 是 得 提醒 读者 注 
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意 他 们 声称 的 Web 服 务 器 的 性 能 和 统计 数据 。 如 本 章 中 我 们 所 看 到 的 ， 以 下 这 些 提 法 有 
很 大 的 区 别 : 每 天 点 击 次 数 、 每 天 连接 数 、 每 天 客户 数 和 每 天 会 话 数 。 另 一 个 要 搞 清 的 
事实 是 一 个 组 织 的 Web 服 务 器 程序 运行 在 几 台 主机 上 ， 我 们 将 在 下 一 节 讨 论 这 种 情况 。 
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图 14-2 每 小 时 被 动 连接 尝试 次 数 


14.2 多 个 HTTP 服 务 器 


最 简单 的 HTTP 服 务 器 安排 是 一 台 主 机 上 运行 一 个 HTTP 服 务 器 程序 。 有 很 多 Web 站 点 是 
这 样 做 的 ,但 也 有 两 种 较为 普遍 的 变形 : l 

1) 一 台 主 机 ， 多 个 服务 器 程序 。 本 章 中 所 分 析 的 数据 就 来 源 于 一 台 按 这 种 方式 运行 的 主机 。 
单个 主机 为 多 个 组 织 提 供 HTTP 服 务 。 每 一 个 组 织 的 WWW 域 名 (www .organization .com) 
映射 一 个 不 同 的 IP 地 址 (都 在 同一 子 网 上 )， 单 个 以 太 网 接口 分 别 对 每 一 个 不 同 的 四 地 址 
赋予 别名 (6.6 节 中 描述 了 Net / 3 怎样 允许 单个 网 络 接口 上 的 多 个 IP 地 址 。 在 主 IP 地 址 之 
后 指派 给 网 络 接 口 的 IP 地 址 均 称 为 别名 )。 这 22 个 httpa 服 务 器 实例 中 的 每 一 个 都 只 使 
用 一 个 卫 地 址 。 当 服务 器 程序 启动 时 ， 它 把 本 地 的 下 地 址 绑 定 到 它 的 监听 TCP 插 口上 ， 
因此 它 只 收 到 那些 目的 地 址 是 它 的 下地 址 的 连接 。 

2) 多 台 主 机 ， 每 台 均 提供 服务 器 程序 的 一 个 副本 。 这 种 技术 用 于 繁忙 的 组 织 在 多 个 主机 
上 分 布 输入 负载 ( 即 负载 平衡 )。 对 应 组 织 的 WWW 域 名 : www.organization.com 
指派 了 多 个 IP 地 址 ， 每 一 个 提供 HTTP 服 务 的 主机 有 不 同 的 JP 地址 ( 卷 1 的 第 14 章 ，DNS 
中 的 多 条 A 记录 )。 这 种 组 织 的 DNS 服 务 器 响应 DNS 客 户 请 求 时 ， 必 须 能 以 不 同 的 顺序 
返回 多 个 不 同 的 IP 地 址 。DNS 中 把 这 个 称 为 循环 使 用 (round-robin)， 例 如 ， 在 通常 的 
DNS 服务 器 程序 当前 版 本 中 均 支 持 这 种 功能 。 
例如 ，NCSA 提 供 9 个 HTTP 服 务 器 。 我 们 第 一 次 查询 它们 的 域名 服务 器 时 ， 返 回 如 下 : 
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$ host -t a www.ncsa.uiuc.edu  newton.ncsa.uiuc.edu 
Server; newton.ncsa.uiuc.edu 
Address: 141.142.6.6 141.142.2.2 


www.ncsa.uiuc.edu A 141.142.3.129 
www.ncsa.uiuc.edu A 141.142.3.131 
www.ncsa.uiuc.edu A 141.142.3.132 
www.ncsa.uiuc.edu A 141.142.3.134 
www.ncsa.uiuc.edu A 141.142.3.76 
www.ncsa.uiuc.edu A 141.142.3.70 
www.ncsa.uiuc.edu A 141.142.3.74 
www.ncsa.uiuc.edu A 141.142.3.30 
www.ncsa.uiuc.edu A 141.142.3.130 


(host 程 序 在 卷 1 第 14 章 有 描述 并 用 到 了 它 。) 上 例 命令 中 的 最 后 一 个 参数 是 我 们 要 查询 
的 NCSA 的 DNS 服务 器 的 名 字 ， 使 用 该 参数 的 原因 是 : 在 缺 省 情况 下 ，host 程 序 将 使 
用 本 地 DNS 服务 器 ， 而 本 地 域名 服务 器 的 缓存 中 可 能 有 这 9 个 记录 ， 而 且 可 能 每 次 返回 
同一 个 下 地 址 。 i 

第 二 次 我 们 再 运行 上 例 中 的 程序 时 ， 得 到 了 不 同 次 序 。 


$ host -t a' www.ncsa.uiuc.edu  newton.ncsa.uiuc.edu 
Server: newton.ncsa.uiuc.edu 
Address: 141.142.6.6 141.142.2.2 


www.ncsa.uiuc.edu A 141.142.3.132 
www.ncsa.uiuc.edu A 141.142.3.134 
www.ncsa.uiuc.edu A 141.142.3.76 
www.ncsa.uiuc.edu A 141.142.3.70 
www.ncsa.uiuc.edu A 141.142.3.74 
www.ncsa.uiuc.edu A 141.142.3.30 
www.ncsa.uiuc.edu A 141.142.3.130 
www.ncsa.uiuc.edu A 141.142.3.129 
www.ncsa.uiuc.edu A 141.142.3.131 


14.3 客户 端 SYN 的 到 达 间 隔 时 间 


下 面 我 们 来 做 一 件 有 趣 的 事情 : 通过 观察 客户 端 SYN 的 到 达 ， 我 们 来 看 平均 请 求 速率 和 
最 大 请 求 速率 之 间 的 区 别 。 服 务 器 应 有 能 力 应 付 峰值 负载 ， 而 不 是 平均 负载 。 

通过 对 SYN / FIN / RST 进 行 24 小 时 跟踪 ， 我 们 可 以 分 析 客 户 端 SYN 的 到 达 时 间 间 隔 。 在 这 
个 24 小 时 的 跟踪 期 间 共 有 160 948 个 SYN 到 达 ( 在 本 章 的 开头 我 们 曾 提 到 ， 在 这 期 间 有 147 103 
次 连接 尝试 。 这 中 间 的 不 同 是 因为 SYN 的 重 传 。 注 意 到 ， 大 约 有 10% 的 SYN 须 重 传 )。 最 小 的 
到 达 间 隔 时 间 是 0.1 ms， 最 大 值 是 44.5 秒 ， 平 均值 是 538 ms， 中 间 值 是 222 ms。91% 的 到 达 间 
隔 时 间 小 于 1.5 秒 。 图 14-3 给 出 了 到 达 间 隔 时 间 的 柱状 图 。 

这 张 图 虽然 有 趣 ， 但 它 不 能 提供 峰值 到 达 速 率 。 为 了 测定 峰值 速率 ， 我 们 把 一 天 的 24 小 
时 划分 为 1 秒 的 时 间 间 隔 ， 并 计算 每 秒 的 SYN 到 达 个 数 (实际 测量 了 86 622 秒 ， 比 24 小 时 长 几 分 
钟 )。 图 14-4 列 出 了 前 20 个 时 间 间 隔 内 计数 器 的 值 。 图 中 第 三 列 给 出 了 所 有 到 达 的 SYN 数 ， 第 
三 列 的 计数 器 表示 的 是 忽略 重 传 后 的 SYN 到 达 数 。 在 本 节 的 最 后 ， 我 们 将 用 到 第 三 列 的 数据 。 

例如 ， 考 虑 所 有 到 达 的 SYN， 一 天 有 27 868 秒 (一 天 中 的 32%) 内 没有 SYN 到 达 ，22 47VEv 
(一 天 中 的 26%) 内 只 有 一 次 SYN 到 达 ， 等 等 。 一 秒 中 最 大 的 SYN 到 达 数 为 73 次 ， 一 天 中 共有 两 
次 这 种 情况 。 我 们 观察 所 有 SYN 到 达 次 数 超过 50 次 的 “ 秒 ”， 将 发 现 它们 都 在 一 个 3 分 钟 的 时 
间 段 内 ， 这 就 是 我 们 要 找 的 峰值 。 
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图 14-3 客户 端 SYN 的 到 达 间 隔 时 间 分 布 


























1 秒 钟 内 到 达 
的 SYN 个 数 

0 

1 
2 13 036 12 374 
3 7906 7316 
4 5499 5125 
5 3752 3441 
6 2525 2 197 
7 1456 1240 
8 823 693 
9 536 437 
10 323 266 
11 163 130 
12 90 66 
13 50 32 
14 22 18 
15 14 10 
16 12 9 
17 4 3 
18 5 2 
19 2 1 
20 3 0 
86 560 86 620 


图 14-4 给 定 秒 数 内 到 达 的 SYN 数 


图 14-6 是 含有 峰值 的 那个 小 时 的 情况 。 在 这 个 图 中 ， 我 们 把 每 30 秒 到 达 的 SYN 数 取 平 均 
值 ，y 轴 表示 的 是 每 秒 到 达 的 SYN 数 ， 平 均 到 达 速 率 约 为 每 秒 3.5 个 ， 因 此 ， 这 个 小 时 处 理 的 
到 达 的 SYN 几 乎 为 平均 值 的 两 倍 。 

图 14-7 给 出 了 包含 峰值 的 那个 3 分 钟 的 更 详细 的 情况 。 
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在 这 3 分 钟 中 的 变化 有 违 人 们 的 直觉 ， 也 表明 某 些 客户 有 反常 行为 。 如 果 我 们 检查 这 3 分 
钟 Tecpdump 程 序 的 输出 会 发 现 ， 问 题 果然 来 自 一 个 特别 的 客户 。 在 包含 图 14-7 最 左边 尖峰 的 30 
秒 中 ， 那 个 客户 在 两 个 不 同 的 端口 发 送 1 024 个 SYN， 平 均 每 秒 30 个 。 有 少数 儿 秒 还 在 60~65 
次 之 间 ， 再 加 上 其 他 客户 发 送 的 ， 在 图 中 的 峰值 就 接近 70 个 。 图 14-7 中 中 间 的 尖峰 也 是 由 这 
个 客户 引起 的 。 

图 14-5 列 出 了 与 这 个 客户 相关 的 部 分 Temdump 输 出 。 
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server.80 > client.1537: 


client.1537 » server.80: 


server.80 > client.1537: 
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图 14-6 60 分 钟 时 间 内 每 秒 到 达 的 SYN 数 


1317079:1317079(0) 

win 2048 «mss 1460» 
2104019969:2104019969(0) 
ack 1317080 win 4096 «mss 512» 
1317092:1317092(0) 

win 2048 «mss 1460» 
2104019970:2104019970(0) 
ack 1317080 win 4096 

0:0(0) 

ack 1317093 win 0 
1317080:1317080(0) win 2048 


1319042:1319042(0) 

win 2048 «mss 1460» 
2105107969:2105107969(0) 

ack 1319043 win 4096 «mss 512» 
1319083:1319083(0) 

win 2048 «mss 1460» 
2105107970:2105107970(0) 

ack 1319043 win 4096 

0:0(0) 

ack 1319084 win 0 





图 14-5 违规 的 客户 以 高 速率 发 送 无 效 的 SYN 
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图 14-7 3 分 钟 的 峰值 时 间 内 每 秒 到 达 的 SYN 数 


第 一 行 是 表示 客户 的 SYN， 第 二 行 是 服务 器 的 SYN / ACK。 第 三 行 是 从 同一 个 客户 的 同 
一 个 端口 来 的 另 一 个 SYN， 但 它 的 起 始 序列 号 是 13， 比 第 一 行 的 高 。 第 四 行 是 服务 器 发 送 一 
个 RST， 第 五 行 发 送 另 一 个 RST， 第 六 行 是 客户 发 送 的 RST。 从 第 7 行 开始 又 重复 这 个 情况 。 

为 什么 服务 器 要 在 一 行内 给 客户 发 送 两 个 RST( 第 五 行 和 第 六 行 )? 可 能 是 由 于 设 有 打印 出 
来 的 某 些 数 据 段 引起 ， 因 为 遗憾 的 是 Tcpdump 跟 踪 程 序 仅 包含 有 SYN、FIN 或 RST 标 志 的 报 文 
段 。 然 而 ， 这 个 客户 显然 违规 了 ， 在 同一 个 端口 如 此 高 速率 地 发 送 SYN， 并 且 从 一 个 SYN 到 
下 一 个 的 序列 号 增加 很 小 。 l 


忽略 重 传 的 SYN 后 的 计算 结果 


我 们 需要 忽略 重 传 的 SYN ， 重 新 分 析 客 户 SYN 的 到 达 间 隔 时 间 。 因 为 从 上 面 我 们 可 以 看 
出 ， 一 个 违反 常规 的 客户 就 可 以 将 数据 拉 出 显著 的 峰值 来 。 正 如 我 们 在 本 节 的 前 面 所 提 到 的 ， 
忽略 重 传 可 以 减少 约 10% 的 SYN。 同 样 ， 通 过 考察 有 效 的 SYN， 我 们 可 以 来 分 析 连 接 到 达 服 
务 器 的 速率 。 所 有 到 达 的 SYN 均 影响 TCP/IP 协 议 的 处 理 (因为 每 一 个 SYN 要 经 过 设备 驱动 程序 、 
IP 输 入 ， 然 后 才 是 TCP 输 入 )， 连 接 的 到 达 速 率 影响 HTTP 服 务 器 (服务 器 程序 为 每 一 个 连接 处 
理 新 的 客户 请 求 )。 

在 忽略 重 传 SYN 后 ， 图 14-3 中 的 平均 值 由 538 ms 增加 至 600 ms， 中 间 值 由 222 ms 增加 至 
251 ms。 在 图 14-4 中 我 们 已 给 出 每 秒 到 达 的 SYN 的 分 布 图 。 峰 值 也 像 图 14-6 中 表示 的 那样 ， 
不 过 要 小 得 多 。 一 天 中 到 达 的 SYN 数 最 大 的 3 秒 内 分 别 为 有 19、21、33 个 SYN 到 达 。 这 就 给 我 
们 一 个 范围 ， 从 每 秒 4 个 (由 到 达 时 间 间 隔 中 值 251 ms 得 来 ) 到 33 个 SYN， 约 为 8 倍 的 关系 。 这 
就 意味 着 ， 当 我 们 设计 一 个 Web 服 务 器 时 ， 应 使 它 能 适应 的 峰值 在 这 种 平均 值 之 上 。 在 14.5 节 
中 我 们 将 看 到 这 种 入 连接 请 求 队列 中 的 峰值 到 达 速 率 的 作用 。 
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14.4 RTT 的 测量 


下 一 个 我 们 感 兴趣 的 内 容 是 各 种 客户 与 服务 器 之 间 的 往返 时 间 。 不 幸 的 是 ， 我 们 不 能 通 
过 在 服务 器 上 跟踪 SYN/FIN/RST 来 测量 它 。 图 14-8 描 述 了 TCP 三 次 握手 和 用 四 个 报 文 段 来 终 
止 一 个 连接 的 情况 (第 一 个 FIN 由 服务 器 发 出 )。 加 粗 的 线 表 示 在 跟踪 SYN / FIN / RST 时 可 以 被 
跟踪 到 。 


客户 端 服务 器 端 
EP 端 发 送 的 SyN 





RTT + 时 延 








图 14-8 TCP 的 三 次 担 手 和 连接 终止 


在 客户 端 可 以 测量 RTT， 即 发 送 SYN 与 接收 服务 器 发 来 的 SYN 之 间 的 时 间 间 隔 ， 但 我 们 
的 测量 均 在 服务 器 端 。 我 们 可 以 通过 测量 服务 器 发 送 FIN 与 接收 客户 发 来 的 FIN 之 间 的 时 间 间 
隐 来 测量 RTT， 但 是 这 种 测量 包含 一 个 不 确定 的 时 延 : 客户 应 用 程序 收 到 文件 结束 标志 与 关 
闭 连接 之 间 的 时 间 。 

我 们 需要 跟踪 服务 器 上 的 所 有 分 组 来 测量 RTT， 因 此 我 们 使 用 前 面 提 到 的 2.5 小 时 的 跟 
踪 ， 并 测量 服务 器 发 送 SYN / ACK 与 收 到 客户 的 ACK 之 间 的 时 间 间 隔 。 客 户 发 送 的 、 用 来 
确认 服务 器 SYN 的 ACK 报 文通 常 不 会 被 延迟 ( 卷 2 第 758 页 )， 因 此 这 种 测量 不 会 包含 一 个 时 
延 的 ACK。 这 些 报 文通 常 都 是 尽 可 能 的 小 (服务 器 的 SYN 为 44 字 节 ， 通 常 包 括 一 个 服务 器 上 
使 用 的 MSS 选 项 ， 客 户 的 ACK 为 40 字 节 )， 因 此 在 较 慢 的 SLIP 或 PPP 链 路 上 也 不 会 产生 明显 
的 时 延 。 

在 2.5 小 时 内 ， 进 行 了 19 195 次 RTT 的 测量 ， 涉 及 810 个 不 同 的 IP 地 址 。 最 小 的 RTT 等 于 
0( 从 同一 主机 的 客户 程序 )， 最 大 的 RTT 是 12.3 秒 ， 平 均值 是 445 ms， 中 间 值 是 187 ms。 图 14-9 
给 出 了 3 秒 以 内 的 RTT 的 分 布 。98.5% 的 RTT 在 3 秒 以 内 。 这 些 测 量 表明 ， 由 大 西洋 岸 至 太平 洋 
岸 的 RTT 最 好 的 情况 在 60 ms 左右 ， 典 型 情况 下 的 RTT 值 至 少 是 这 个 值 的 3 倍 。 
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为 什么 中 间 值 (178 ms) 比 由 大 西洋 岸 至 太平 洋 岸 的 RTT(60 ms) 小 这 么 多 ? 一 种 可 
能 是 目前 情况 下 ， 大 量 的 用 户 仍 使 用 拨号 线 访 问 Internet， 即 使 是 最 快 的 调制 解 调 器 
(28 800 bps)， 也 给 每 个 RTT 增 加 100~200 ms 的 时 延 。 另 外 一 个 原因 是 ， 有些 客户 实 
现在 处 理 三 次 握手 的 第 三 个 报 文 段 (客户 发 送 的 、 用 来 确认 服务 器 SYN 的 ACK 报 文 ) 时 
产生 了 时 延 。 











0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 


RTT(ms) 


图 14-9 客户 往返 时 间 的 分 布 


14.5 用 Listen 设 置 入 连接 队列 的 容量 
为 了 准备 一 个 接收 入 连接 请 求 的 插口 ， 服 务 器 通常 执行 下 面 的 调用 : 


listen(sockfd, 5); 

第 二 个 参数 称 为 backiog， 指 示 1isten 调 用 的 入 连接 队列 的 容量 。BSD 内 核 因 为 历史 的 
原因 ， 通 过 在 <sys/socket .h> 头 文件 中 定义 SOMAXCONN 常 量 ， 将 入 连接 队列 的 容量 的 上 
限 设 为 5。 如 果 应 用 程序 指定 了 一 个 大 于 5 的 值 ， 内 核 将 不 做 任何 提示 地 把 它 置 为 SOMAXCONN。 
新 的 内 核 将 SOMAXCONN 的 值 增加 至 10 或 更 高 ， 增 加 的 原因 我 们 马上 要 介绍 。 

在 插口 数据 结构 中 ，so_qlimit 值 就 等 于 backlog 参 数值 ( 卷 2 第 365 页 )。 当 一 个 TCP 入 连 
接 请 求 到 达 时 (客户 端的 SYN)，TCP 程 序 执行 sonewconn 调 用 ， 紧 跟着 进行 如 下 测试 ( 卷 2 第 
370 页 的 第 130~131 行 ): 


if (head->so_qlen + head->so q0len > 3 * head->so_qlimit / 2) 
return ((struct socket *)0); 


正如 卷 2 中 所 描述 的 ， 把 应 用 程序 指定 的 backlog 乘 以 一 个 毫 无 根据 的 因子 : 3/2, 
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确实 能 在 内 核 指定 backlog 为 5 时 将 等 待 的 连接 数 增 加 至 8。 这 个 毫 无 根据 的 因子 只 在 
基于 伯克利 的 实现 中 有 作用 ( 卷 1 第 195 页 )。 


这 个 队列 长 度 的 上 限 限 制 以 下 两 项 的 和 : 

D 未 完成 连接 队列 (so_q01len, 一 个 SYN 已 经 到 达 、 但 三 次 握手 还 没有 完成 的 连接 ) 中 的 
项 数 。 

2) 已 完成 连接 队列 (so_qlen， 三 次 握手 已 完成 、 内 核 正 等 待 进程 执行 accept 调 用 ) 中 的 
项 数 。 

- 卷 2 第 369 页 详细 描述 了 当 一 个 TCP 连 楼 请 求 到 达 时 ， 服 务 器 端 处 理 的 步 又 。 

当 已 完成 连接 队列 被 填 满 (例如 ， 服 务 器 进程 或 服务 器 主机 非常 繁忙 时 ， 进 程 执 行 
accept 调 用 不 够 快 ， 不 能 及 时 清空 队列 )， 或 未 完成 连接 队列 被 填 满 时 ， 将 达到 backlog 的 上 
限 。 当 服务 器 主机 与 客户 主机 的 往返 时 间 较 长 ， 而 相 比 较 而 言 ， 新 的 连接 请 求 到 达 较 快 ， 那 
么 服务 器 就 要 面 对 上 述 的 后 一 个 问题 ， 因 为 一 个 新 的 SYN 占 用 队列 中 的 一 个 记录 项 的 时 间 是 
一 次 往返 时 间 。 图 14-10 描 述 了 未 完成 连接 队列 的 这 部 分 时 间 。 


客户 端 服务 器 端 


新 连接 停留 在 未 完成 连接 
队列 中 的 时 间 =RIT 





图 14-10 用 分 组 表示 的 未 完成 连接 队列 中 一 个 记录 项 的 占用 时 间 。 


为 了 检验 未 完成 连接 队列 是 否 已 满 (不 是 已 完成 连接 队列 )， 我 们 使 用 一 个 被 修改 过 的 
netstat 程 序 ， 在 最 繁忙 的 HTTP 监听 服务 器 上 连续 打印 so_q01en 和 so_qlen 这 两 个 变量 
的 值 。 这 个 程序 共 运 行 了 2 个 小 时 ， 进 行 了 379 076 次 采样 ， 
或 者 说 约 每 19 ms 进行 一 次 采样 。 图 14-11 给 出 了 结果 。 

前 面 曾经 提 到 ， 将 backlog 设 为 5 时 ， 实 际 上 可 以 有 8 条 
连接 在 排队 。 已 完成 连接 队列 绝 大 部 分 时 间 是 空 的 ， 因 为 
当 有 连接 进入 这 个 队列 时 ， 只 要 服务 器 程序 的 accept 调 
用 一 返回 ， 这 条 连接 便 会 马上 从 该 队列 中 被 取 走 。 

当 队 列 已 满 时 ，TCP 丢 弃 入 连接 请 求 ( 卷 2 第 743 页 )， 
并 且 假 定 客 户 程 序 会 发 生 超 时 ， 重 传 它 的 SYN， 和 希望 在 几 
秒 钟 以 后 在 队列 中 找到 空闲 位 置 。 但 是 NeV3 的 内 核 并 不 提 
供 有 关 丢 失 的 SYN 的 统计 数据 ， 因 此 系统 管理 员 无 法 知道 
这 种 情况 发 生 的 频 度 。 我 们 把 系统 中 这 一 段 代 码 做 了 如 下 ”图 14-11 繁忙 的 HTTP 服 务 器 的 
修改 : 连接 队列 长 度 分 布 








oo do Uc uo 
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if (so-»so options & SO ACCEPTCONN) ( 
So - sonewconn(so, 0); 
if (so =s 0) ( 
tcpstat.tcp listendrop-**; /* new counter */ 
goto drop; 
} 


所 做 的 修改 就 是 增加 了 一 个 计数 器 。 

图 14-12 中 列 出 了 为 期 5 天 、 一 小 时 采集 一 次 得 到 的 该 计数 器 的 值 。 这 个 计数 器 是 对 主机 上 
的 所 有 服务 器 程序 进行 统计 的 ， 但 是 我 们 假定 所 监视 的 主机 主要 是 作为 一 台 Web 服 务 器 ， 实 际 
上 绝 大 多 数 的 溢出 也 是 发 生 在 httpad 的 侦 昕 插口 上 。 从 平均 上 来 说 ， 这 台 主 机 每 分 钟 的 呼 入 连 
接 请 求 溢出 刚好 超过 三 个 (22 918 次 溢出 除 以 7139 分 钟 )， 但 是 这 里 也 有 几 个 值得 注意 的 连接 丢失 
数量 的 跳跃 点 。 大 约 在 第 4500 分 钟 (星期 五 下 午 4 : 00) 左右 ， 一 个 小 时 内 丢弃 了 1964 个 人 连接 请 
求 ， 约 为 每 分 钟 32 个 (每 两 秒 钟 一 个 )。 其 他 两 次 值得 注意 的 跳跃 发 生 在 星期 二 下 午 的 早 些 时 候 。 


星期 二 星期 三 星期 四 星期 五 星期 六 星期 日 
正午 正午 正午 EF 正午 正午 
24000 24000 
22000 22000 
20000 20000 
18000 18000 
16000 16000 
监听 队 14000 Wm 
列 洲 出 12000 12000 
10000 10000 
8000 8000 
6000 6000 
4000 4000 
2000 2000 
0 0 
0 1000 2000 3000 4000 5000 6000 7000 
系统 启动 后 所 经 过 的 时 间 ( 分 钟 ) 


图 14-12 服务 器 监听 队列 的 溢出 


必须 增加 支持 繁忙 服务 器 的 内 核 的 backlog 参 数 的 上 限 ， 同 时 必须 修改 繁忙 服务 器 应 用 程 
序 (例如 httpd)， 使 之 设置 一 个 更 大 的 backlog。 例 如 ，httpd 的 1.3 版 就 存在 这 个 问题 ， 因 为 
它 用 下 面 的 语句 将 backlog 强 制 设置 为 5: 

listen(sd, 5); 
1.4 版 将 backlog 增 加 到 了 35， 但 这 对 于 某 些 繁忙 的 服务 器 来 说 还 是 不 够 。 

不 同 的 厂商 采用 不 同 的 方法 来 增加 内 核 的 backlog 的 上 限 。 例 如 ，BSD / OS V2.0 内 核 将 
somaxconn 全 局 变量 指定 为 16， 但 系统 管理 员 可 以 将 它 调 整 至 更 大 的 值 。Solaris 2.4 允 许 系 
统管 理 员 使 用 nda 程 序 改变 TCP 参 数 : tcp_conn_req_max， 这 个 参数 的 默认 值 为 5， 最 
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大 可 以 到 32。Solaris 2.5 将 默认 值 增加 到 32， 而 最 大 可 以 到 1 024。 不 幸 的 是 ， 应 用 程序 使 用 
listen 调 用 时 ， 没 有 一 个 简单 的 办 法 来 确定 当前 操作 系统 内 核 所 允许 的 队列 最 大 值 ， 所 以 最 
好 的 办 法 是 应 用 程序 的 代码 中 给 这 个 参数 赋 一 个 很 大 的 值 (因为 使 用 1isten 调 用 时 不 会 因为 
这 个 值 太 大 而 返回 错误 )， 或 者 让 用 户 可 以 在 命令 行 中 指定 这 个 参数 。 在 [Mogul 1995c] 提 出 
一 种 思想 ， 认 为 在 1isten 调 用 中 应 忽略 这 个 参数 ， 而 由 系统 内 核 直接 把 它 设 为 最 大 值 。 


有 些 应 用 程序 特意 将 backlog 参 数 设 为 一 个 较 低 的 值 来 限制 服务 器 的 和 负载， 因此， 
在 这 种 情况 下 我 们 要 避免 增加 这 些 应 用 程序 中 的 这 个 参数 值 。 


SYN_RCVD 错 误 


当 我 们 检查 netstat 的 输出 时 发 现 ， 插 口 在 SYN_RCVD 状 态 下 保持 了 几 分 钟 。Net / 3 用 
它 的 连接 建立 定时 器 限制 这 个 状态 保持 的 时 间 为 75 秒 ( 卷 2 第 664 页 和 755 页 )， 为 什么 还 会 出 现 
这 种 现象 7 图 14-13 列 出 了 Tcpdump 的 输出 。 


.0 client.4821 » server.80: S 32320000:32320000(0) 
' win 61440 «mss 512» 
.001045 ; server. client.4821: S 365777409:365777409(0) 
ack 32320001 win 4096 «mss 


.791575 server. client.4821: S 365777409:365777409(0) 
ack 32320001 win 4096 «mss 
.827420 ; client. » server.80: S 32320000:32320000(0) 
win 61440 «mss 512» 
.827730 : server. client.4821: S 365777409:365777409(0) 
ack 32320001 win 4096 «mss 


.801493 i server. client.4821: S 365777409:365777409(0) 
ack 32320001 win 4096 «mss 
.828256 client. > server.80: S 32320000:32320000(0) 
win 61440 «mss 512» 
.828600 $ server. client.4821: S 365777409:365777409(0) 
ack 32320001 win 4096 «mss 


.811791 ; server. client.4821: S 365777409:365777409 (0) 
ack 32320001 win 4096 <mss 

.821740 ; server. client.4821: S 365777409:365777409 (0) 
ack 32320001 win 4096 <mss 


服务 器 每 64 秒 重 传 ACK / SYN 


.197350 (64.1911) server.80 > client.4821: S 365777409:365777409(0) 
ack 32320001 win 4096 «mss 





图 14-13 服务 器 插口 在 SYN_RCVD 状 态 被 阻塞 近 11 分 钟 


客户 发 送 的 SYN 在 第 一 个 报 文 段 中 到 达 ， 服 务 器 的 SYN / ACK 在 第 二 个 报 文 段 发 出 。 同 
时 服务 器 设置 连接 建立 定时 器 为 75 秒 ， 重 传 定时 器 为 6 秒 。 上 图 的 第 3 行 中 ， 重 传 定时 器 溢出 ， 
服务 器 重 传 SYN / ACK。 这 正 是 我 们 所 期 望 的 。 

第 4 行 中 可 以 看 到 客户 端的 响应 ， 但 这 个 响应 是 重 传 第 1 行 中 的 最 初 的 那个 SYN ， 而 不 是 
我 们 所 期 望 的 对 服务 器 SYN 的 响应 ACK。 客 户 端 好 像 是 被 中 断 了 。 服 务 器 给 出 了 正确 的 响应 : 
重 传 SYN / ACK。 收 到 第 4 个 报 文 段 后 ， 服 务 器 端的 TCP 程 序 将 这 条 连接 的 保 活 定时 器 
(keepalive timer) 的 超时 间隔 设 为 2 小 时 ( 卷 2 第 745 页 )。 但 是 ， 保 活 定时 器 与 连接 建立 定时 器 使 
用 连接 控制 块 中 的 同一 个 计数 器 ( 卷 2 的 图 25-2)， 因 此 ， 程 序 清除 该 计数 器 的 当前 值 69 秒 ， 而 
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把 它 设 成 2 小 时 。 通 常客 户 端 用 一 个 响应 服务 器 SYN 的 ACK 来 完成 三 次 握手 ， 建 立 TCP 连 接 。 
当 这 个 ACK 报 文 被 处 理 后 ， 保 活 定时 器 被 设 为 2 小 时 ， 重 传 定时 器 则 被 关闭 。 

第 6、7、8 行 的 情况 类 似 。 服 务 器 的 重 传 定时 器 在 24 秒 后 超时 ， 重 传 它 的 SYN / ACK, 但 
是 客户 端的 响应 ( 它 又 一 次 重 传 了 最 初 的 SYN) 不 正确 ， 因 此 服务 器 再 次 正确 地 重 传 SYN / ACK, 
在 第 9 行 可 以 看 到 ,服务器 的 重 传 定时 器 在 48 秒 后 再 次 超时 ,同样 重 传 它 的 SYN / ACK, 这样， 
重 传 定时 器 到 了 它 的 最 大 值 : 64 秒 ， 在 连接 被 丢弃 之 前 共 发 生 了 12 次 重 传 (12 是 卷 2 第 674 页 中 
的 常量 TCP_MAXRXTSHIFT 的 值 )。 

因为 保 活 定 时 器 、 连 接 建 立定 时 器 共用 TCPT_KEEP 计 数 器 ， 所 以 修补 这 个 故障 的 方法 是 : 
连接 还 没有 完全 建立 好 时 ( 卷 2 第 745 页 )， 不 将 保 活 定时 器 的 超时 间隔 设 为 2 小 时 。 当 然 ， 做 了 
上 述 修 改 后 ， 就 要 求 当 连接 转移 到 已 建立 的 状态 后 把 保 活 定时 器 设置 成 初始 值 2 小 时 。 


14.6 客户 端的 SYN 选 项 


我 们 在 为 期 24 小 时 的 跟踪 中 收集 了 所 有 的 SYN 报 文 段 ， 从 中 我 们 可 以 看 到 伴随 SYN 的 一 
些 不 同 的 参数 和 选项 。 


客户 端口 号 


基于 伯克利 的 系统 分 配 的 客户 临时 使 用 的 端口 号 的 范围 是 1024~5000( 卷 2 第 588 页 )。 正 如 
我 们 所 期 望 的 那样 ， 超 过 160 000 个 客户 中 有 93.5% 使 用 的 端口 在 这 个 范围 内 。 有 14 个 客户 连 
接 请 求 使 用 的 端口 号 小 于 1024( 端 口号 小 于 1024 的 在 Net / 3 中 通常 作为 保留 端口 )， 其 余 6.5% 的 
端口 号 都 在 5001~65535 之 间 。 有 些 系 统 ， 特 别 是 Solaris 2.x， 分 配 的 客户 端口 号 都 大 于 32768。 





























0 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 60000 65000 
客户 端口 号 
图 14-14 客户 端口 号 的 范围 
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图 14-14 是 一 个 客户 使 用 端口 号 的 分 布 图 ， 每 1000 个 端口 (如 1001~2000、2001~3000) 作 为 


一 个 统计 范围 。 请 注意 y 轴 是 对 数 座 标 。 同 时 我 们 也 看 到 ， 绝 大 部 分 客户 使 用 的 端口 在 


1024~5000 之 间 ， 而 且 2 /3 的 端口 在 1024~2000 之 间 。 


最 大 报 文 长 度 


可 以 基于 选用 网 络 的 MTU( 见 前 面 我 们 对 图 10-9 的 讨论 ) 或 直接 使 用 固定 值 ( 非 本 地 的 同 层 之 


间 使 用 512 或 536， 较 老 的 BSD 系 统 使 1024， 等 等 ) 来 设置 MSS。REFC 1191[Mogul and Deering 
1990] 列 出 了 典型 的 16 种 不 同 的 MTU。 因 此 ， 在 实验 中 我 们 希望 能 找到 Web 客 户 所 发 出 的 不 同 
的 MSS 的 值 有 十 儿 种 或 更 多 。 事 实 上 我 们 找到 了 117 种 不 同 的 值 ， 范 围 在 128~17 520 之 间 。 


EE 日 
Ad. 思 AE 





256—40 






408 24 
472 21 512—40 
512 465 
536 1097 








初始 窗口 宽度 通告 


客户 的 SYN 中 也 包含 了 客户 端的 初始 窗口 宽度 
的 通告 。 这 里 共有 117 种 不 同 的 值 ， 跨 越 了 整个 允许 
值 的 范围 : 0~65535。 图 14-16 列 出 了 最 常见 的 14 种 
值 的 使 用 统计 数 。 这 4990 个 值 占 5386 个 不 同 客户 的 
93%。 有 些 值 有 特殊 的 意义 ， 但 有 些 值 让 人 感到 迷 
惑 ， 


例如 22099。 


好 像 有 些 PC 平台 上 的 Web 浏 览 器 允许 
用 户 指 定 MSS 和 初始 窗口 尺 寺 。 这 就 是 我 
们 看 到 一 些 奇 怪 值 的 一 个 原因 ， 用 户 设 置 
这 些 值 时 可 能 并 没有 理解 它们 的 作用 。 

不 管 怎 么 说 ， 我 们 共 找 到 117 种 不 同 的 
MSS 值 和 117 种 不 同 的 初始 窗口 尺寸 ， 并 检 
查 了 267 种 不 同 的 MSS 和 初始 窗口 尺寸 的 组 
合 ， 并 没有 发 现 它 们 之 间 有 明显 的 相关 性 。 


RFC 1122 指 出 如 不 使 用 选项 ， 则 设 为 536 
MTU 为 296 的 PPP 或 SLIP 链 路 


非 本 地 主机 的 常用 默认 值 

非 本 地 主机 的 常用 默认 值 
ARPANET MTU (1006) — 40 
老 版 本 BSD 中 本 地 主机 的 默认 值 


以 太 网 MTU (1500) 一 40 





图 14-15 列 出 了 最 常见 的 13 种 客户 通告 的 MSS 的 值 。 这 5071 个 连 到 Web 服 务 器 的 客户 占 总 


客户 数 5386 的 94%。 第 一 栏 中 标记 “none” 的 客户 的 SYN 中 没有 通告 MSS。 





















2x1460 












4096 接收 缓存 大 小 的 默认 值 
8192 小 于 常用 的 默认 值 
8760 6 x 1460 (以 太 网 上 常用 ) 
16384 
22099 7x7x11x41? 
22792 7x8x11x37? 
32768 






60 x 1024 









图 14-16 客户 所 通告 的 初始 窗口 
尺寸 的 分 布 
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窗口 比例 和 时 戳 选 项 


RFC 1323 指 定 了 窗口 比例 和 时 发 选项 (图 2-1)。 在 5386 个 不 同 的 客户 中 共有 78 个 只 发 送 了 
窗口 比例 选项 ，23 个 既 发 送 了 窗口 比例 选项 又 发 送 了 时 发 选项， 没有 一 个 只 发 送 时 惟 选 项 。 
在 所 有 的 窗口 比例 选项 中 都 通告 了 偏 移 因子 0( 意 味 着 比例 因子 是 1， 或 就 是 通告 的 TCP 窗 口 的 
宽度 )。 


利用 SYN 发 送 数据 


五 个 客户 在 发 送 的 SYN 中 撒 带 数据 ,但 这 些 SYN 并 不 包含 新 的 T / TCP 的 选项 。 检 查 这 些 
分 组 ， 发 现 这 些 连 接 都 是 同一 个 模式 。 客 户 发 送 一 个 普通 的 SYN， 不 含 任何 数据 。 三 次 握手 
的 第 二 个 报 文 段 是 服务 器 的 响应 ， 但 是 响应 好 像 丢 失 了 ， 因 此 客户 重 传 了 它 的 SYN。 但 是 每 
一 个 客户 重 传 的 SYN 中 都 包含 有 数据 (在 200~300 字 节 之 间 ， 一 个 常见 的 HTTP 客 户 请 求 )。 


路 径 MTU 发 现 


在 RFC 1191[Mogul and Deering 1990] 和 卷 1 的 24.2 节 均 描 述 了 路 径 MTU 发 现 。 通 过 检查 
客户 所 发 送 的 SYN 报 文 段 中 的 DF 位 (不 分 段 )， 可 以 判断 客户 是 否 支持 这 个 选项 。 在 我 们 的 例 
子 中 ， 共 有 679 个 客户 ( 占 12.6%) 支 持 路 径 MTU 发 现 。 


客户 初始 序列 号 


有 大 量 的 客户 (超过 10%) 使 用 0 作为 初始 序列 号 ， 用 0 作为 初始 序列 号 明显 违反 了 TCP 规 范 。 
这 些 客户 的 TCP / IP 实 现 中 对 所 有 的 主动 连接 都 使 用 0 作为 初始 序列 号 ， 在 跟踪 中 我 们 发 现 ， 
同一 个 客户 在 几 秒 钟 内 在 不 同 端口 发 出 的 多 个 连接 请 求 均 使 用 0 作为 初始 序列 号 。 图 14-19 列 
出 一 个 这 样 的 客户 。 


14.7 客户 端的 SYN 重 传 


伯克利 派生 系统 是 在 初始 SYN 发 出 6 秒 后 重 传 SYN( 如 果 需 村)， 如 果 在 24 秒 内 仍 收 不 到 响 
应 ， 就 再 重 传 ( 卷 2 第 664 页 )。 因 为 在 24 小 时 的 跟踪 中 我 们 记录 下 了 所 有 的 SYN 报 文 (包括 那些 
没有 被 网 络 和 Tcpdump 丢 弃 的 )， 所 以 我 们 能 从 中 看 出 客户 重 传 SYN 有 多 频繁 和 每 一 次 重 传 之 
间 的 时 间 。 

在 这 24 小 时 的 跟踪 中 共有 160 948 个 SYN 到 达 ( 见 14.3 节 )， 其 中 17 680 个 ( 占 11%) 是 重复 的 
(真正 的 重 传 数量 要 小 一 些 ， 因 为 如 果 指 定 IP 地 址 和 端口 号 的 连续 两 个 SYN 报 文 之 间 的 时 间 非 
党 长， 那么 第 二 个 SYN 就 不 是 重 传 ， 而 是 后 来 发 起 的 另 一 条 连接 。 我 们 没有 试图 去 减 掉 这 部 
分 重 传 ， 因 为 它 只 占 11% 中 的 一 小 部 分 )。 

SYN 只 重 传 一 次 (最 通常 的 情况 )， 重 传 时 间 典 型 值 是 在 发 出 初始 SYN 以 后 3、4 或 5 秒 。 如 
果 要 重 传 多 次 , 许多 客户 使 用 BSD 的 算法 : 第 一 次 重 传 是 在 6 秒 以 后 ,接着 的 下 一 次 是 24 秒 后 。 
我 们 用 {6, 24} 来 表示 这 种 序列 。 其 他 观察 到 的 序列 是 : 

* (3, 6, 12, 14), 

* (5, 10, 20, 40, 60, 60) ; 

* (4,4, 4, 4}( 违 反 了 RFC 1122 中 指数 增长 的 要 求 ); 
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* (0.7, 1.3}(20 跳 以 外 的 主机 过 分 频繁 的 重 传 ， 实 际 上 ， 在 这 个 主机 上 有 20 个 连接 重 传 

SYN， 所 有 的 重 传 间隔 都 小 于 500 ms ! ); 

* (3, 6.5, 13, 26, 3, 6.5, 13, 26, 3, 6.5, 13, 26}( 这 个 主机 每 4 次 重 传 后 重新 按 指数 退 避 方法 

重 传 ); 

* (2.75, 5.5, 11, 22, 44}; 

* (21, 17, 106}; 

* (5, 0.1, 0.2, 0.4, 0.8, 1.4, 3.2, 6.4}( 第 一 次 超时 后 太 主动 地 重 传 ); 

* (0.4, 0.9, 2, 4}( 另 一 个 19 跳 以 外 的 主机 过 分 频繁 的 重 传 ); 

* {3, 18, 168, 120, 120, 240}。 

就 像 我 们 所 看 到 的 ， 上 面 有 些 奇 怪 的 序列 。 有 些 SYN 被 重 传 很 多 次 ， 可 能 是 因为 发 送 它 
的 客户 有 路 由 问题 : 它 能 发 送 数据 到 服务 器 ， 但 收 不 到 服务 器 的 任何 响应 。 同 样 ， 也 有 可 能 
是 前 一 个 连接 请 求 的 新 的 实例 ( 卷 2 第 765~766 页 描述 了 BSD 服 务 器 是 如 何 处 理 这 种 情况 的 : 当 
新 的 SYN 的 序列 号 比 处 在 TIME_WAIT 状 态 的 连接 的 最 后 一 个 SYN 的 序列 号 还 大 时 ， 服 务 器 将 
接受 这 个 新 的 连接 请 求 )， 但 是 这 个 时 间 ( 例 如 ， 明 显 的 是 3 秒 或 6 秒 的 倍数 ) 又 让 人 看 起 来 不 太 
像 。 


14.8 域名 


在 24 小 时 期 间 共 有 5386 个 不 同 卫 地 址 的 客户 连接 到 Web 服 务 器 。 因 为 Tcpdump( 带 -w 标 志 ) 
只 记录 带 IP 地 址 的 分 组 首部 ， 因 此 我 们 必须 再 来 找 相 应 的 域名 。 

我 们 第 一 轮 用 DNS 查 找 名 字 ， 试 图 把 这 些 IP 地 址 上 映射 到 它们 的 域名 ， 只 找到 了 4052 个 ( 占 
75%)。 然 后 我 们 在 DNS 上 运行 了 一 天 ， 查 找 剩 下 的 1334 个 IP 地 址 ， 又 找到 了 62 个 域名 。 这 意 
味 着 有 23.6% 的 客户 的 IP 地 址 到 域名 的 逆 映 射 不 正确 ( 卷 1 的 14.5 节 讨论 了 这 些 指 针 查 询 )。 虽 然 
这 些 客户 中 的 大 部 分 都 是 通过 拨号 上 网 ， 而 且 大 部 分 时 间 是 离线 的 ， 但 他 们 也 应 该 有 他 们 的 
名 字 服 务 器 来 提供 名 字 服 务 ， 而 且 名 字 服 务 器 应 是 任何 时 候 都 接 入 Internet 的 。 

在 DNS 查 找 名 字 失 败 后 ， 我 们 马上 对 剩 下 的 1272 个 客户 运行 Ping 程 序 ， 验 证 这 些 没有 地 
址 一 名 字 映 射 的 客户 是 不 是 会 临时 不 可 达 。 结 果 是 Ping 测 试 成 功 了 520 台 主机 ( 占 41%)。 

分 析 这 些 没有 了 映射 到 一 个 域名 的 IP 地 址 的 顶级 域名 的 分 布 ， 发 现 它 们 来 自 57 个 不 同 的 顶 
级 域名 。 其 中 50 个 是 除 美国 以 外 其 他 国家 的 两 个 字母 的 域名 ， 这 也 说 明 用 “世界 范围 内 
(world wide)” 这 个 词 来 形容 Web 是 恰当 的 。 


14.9 超时 的 持续 探测 


Net / 3 从 没有 放弃 过 发 送 持续 探测 (persist probe)。 那 就 是 ， 当 Net / 3 收 到 对 等 端 发 送 的 宽 
度 为 0 的 窗口 通告 后 ， 它 不 管 是 否 曾经 收 到 过 对 方 的 任何 报 文 ， 都 不 断 地 发 送 持续 探测 。 当 对 
等 端 完 全 消失 时 (例如 ， 在 SLIP 或 PPP 连 接 时 挂 断 电话 )， 这 样 做 就 会 产生 问题 。 回 忆 一 下 卷 2 
第 723 页 提 到 的 ， 当 客户 端 消 失 时 ， 有 些 中 间 路 由 器 会 发 送 一 个 主机 不 可 达 错 误 的 ICMP 报 文 ， 
一 旦 连接 建立 ，TCP 将 忽略 这 些 错误 。 

如 果 连 接 没 有 被 丢弃 ，TCP 会 每 60 秒 往 已 经 消失 了 的 主机 发 送 一 个 持续 探测 报 文 (浪费 
Internet 资 源 )， 同 时 每 一 条 连接 还 继续 占用 主机 上 的 内 存 和 TCP 访 问 控 制 块 。 

图 14-17 列 出 的 4.4BSD-Lite2 中 的 代码 修补 了 这 个 问题 ， 用 它 来 替代 卷 2 第 662 页 的 代码 。 
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tcp timer.c 
case TCPT PERSIST: 


tcpstat.tcps persisttimeo-s*; 

F Gad 

* Hack: if the peer is dead/unreachable, we do not 
* time out if the window is closed. After a full 
* backoff, drop the connection if the idle time 
(no responses to probes) reaches the maximum 
backoff that we would use if retransmitting. 


* * 


xp 
if (tp-»t rxtshift == TCP MAXRXTSHIFT && 
(tp-»t idle >= tcp maxpersistidle || 
tp-»t idle »- TCP REXMTVAL(tp) * tcp totbackoff)) ( 
tcpstat.tcps persistdrop-«*; 
tp - tcp drop(tp, ETIMEDOUT); 
break; 
) 
tcp setpersist(tp); 
tp-»t force = 1; 
(void) tcp output (tp); 
tp->t force = 0; 
break; E 
tcp timer.c 


图 14-17 正确 处 理 持续 超时 的 代码 

图 中 的 i£ 语 句 是 新 代码 。 变 量 tcp_maxpersistidle 是 一 个 新 定义 的 变量 ， 它 的 初 值 
是 TCPTV_KEEP_IDLE(14 400 个 500 ms 的 时 钟 滴答 (clock tick)， 或 2 小 时 )。 变 量 
tcp_totbackoff 也 是 一 个 新 变量 ， 它 的 值 是 511， 是 tcp_backoff 数 组 ( 卷 2 第 669 页 ) 中 所 
有 元 素 之 和 。 最 后 ，tcps_persistdrop 是 tcpstat 结 构 ( 卷 2 第 638 页 ) 中 的 一 个 新 的 计数 
器 ， 它 统计 被 丢弃 的 连接 。 

TCP_MRAXRXTSHIET 指 定 了 TCP 在 等 待 ACK 时 的 最 大 重 传 次 数 ， 它 的 值 是 12。 如 果 在 2 小 
时 或 对 等 端的 当前 RTO 的 511 倍 ( 取 两 个 中 较 小 的 ) 内 没有 收 到 对 方 任何 报 文 ， 在 12 次 重 传 后 将 
丢弃 连接 。 例 如 ，RTO 是 2.5 秒 (5 个 时 钟 滴答 ， 一 个 合理 的 值 )， 在 22 分 钟 ( 即 2640 个 时 钟 滴答 ) 
后 ，OR 测 试 条 件 中 的 后 一 个 将 引起 丢弃 连接 ， 因 为 2640 大 于 2555( 即 5 x 511), 

代码 中 的 “Hack” 注 释 不 是 必需 的 。RFC 1122 中 规定 : 即使 提供 的 窗口 宽度 为 0， 

但 只 要 接收 TCP 继 续 给 探测 报 文 发 送 响应 ，TCP 就 必须 无 限期 地 保持 一 个 连接 在 打开 

状态 。 如 果 长 时 间 内 探测 没有 响应 ， 最 好 还 是 丢弃 连接 。 

在 系统 中 加 入 的 代码 可 以 看 出 这 种 情况 的 发 生 有 多 频繁 。 图 14-18 给 出 了 为 期 5 天 的 这 个 
新 计数 器 的 值 。 这 个 系统 平均 每 天 丢弃 90 个 连接 ， 每 小 时 约 4 个 。 

让 我 们 详细 看 一 下 其 中 一 条 连接 。 图 14-19 给 出 了 Tcpdump 分 组 跟踪 的 详细 情况 。 

第 1~3 行 中 除了 初始 序列 号 错误 (0)、MSS 值 有 些 奇 怪 以 外 ， 是 比较 常见 的 TCP 三 次 握手 过 
程 。 在 第 4 行 ， 客 户 发 送 了 一 个 182 字 节 的 请 求 报 文 。 第 5 行 中 服务 器 对 请 求 进行 了 响应 ， 在 响 
应 报 文中 包含 了 应 答 数据 的 前 512 字 节 ， 第 6 行 是 包含 后 512 字 节 数 据 的 应 答 。 

在 第 7 行 客户 发 送 了 一 个 FIN， 第 8 行 中 服务 器 对 FIN 进 行 了 响应 : ACK， 紧 接着 在 第 9 行 
服务 器 发 送 了 1024 字 节 的 应 答 。 客 户 在 第 10 行 确认 了 服务 器 的 前 512 字 节 的 应 答 ， 并 重 传 它 的 
FIN。 第 11 行 、 第 12 行 是 服务 器 的 后 1024 字 节 的 应 答 。 第 13~15 行 中 延续 了 这 种 情况 。 

注意 ， 当 服务 器 发 送 数据 时 ， 客 户 在 第 7、10、13 和 16 行 通告 了 窗口 的 减 小 ， 直 到 第 17 行 
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client.1464 > serv.80: 
serv.80 » client.1464: 


client.1464 » serv.80: 


client.1464 » serv.80: 
serv.80 » client.1464: 
serv.80 » client.1464: 


client.1464 » serv.80: 
serv.80 » client.1464: 
serv.80 » client.1464: 


client.1464 » serv.80: 
serv.80 » client.1464: 
serv.80 » client.1464: 


client.1464 » serv.80: 
serv.80 > client.1464: 
serv.80 » client.1464: 


client.1464 » serv.80: 
client.1464 » serv.80: 


serv.80 
serv.80 
serv.80 
serv.80 
serv.80 
serv.80 
serv.80 


图 14-19 Tcpdump 对 持续 超时 的 跟踪 


client.1464: 
client.1464: 
client.1464: 
client.1464: 
client.1464: 
client.1464: 
client.1464: 


图 14-18 持续 探测 超时 后 丢弃 连接 的 数量 


0:0(0) win 4096 <mss 1396> 
323930113:323930113(0) 

ack 1 win 4096 <mss 512> 
ack 1 win 4096 


1:183(182) ack 1 win 4096 
1:513(512) ack 183 win 4096 
P 513:1025(512) ack 183 win 4096 


FP 183:183(0) ack 513 win 3584 
1025:1537(512) ack 184 win 4096 
1537:2049(512) ack 184 win 4096. 


FP 183:183(0) ack 1025 win 3072 
. 2049:2561(512) ack 184 win 4096 
2561:3073(512) ack 184 win 4096 


P ack 2049 win 2048 
3073:3585(512) ack 184 win 4096 
3585:4097(512) ack 184 win 4096 


P ack 3073 win 1024 
P ack 4097 win 


4097:4098(1) 
4097:4098(1) 
4097:4098(1) 
4097:4098(1) 
4097:4098(1) 
4097:4098(1) 
4097:4098(1) 





160 -AA TCP 的 其 他 应 用 


持续 探测 连续 进行 


140 7187.603975 (60.0501) serv.80 > client.1464: . 4097:4098(1) ack 184 win 4096 
141 7247.643905 (60.0399) serv.80 » client.1464: R 4098:4098(0) ack 184 win 4096 


图 14-19 (£X) 


窗口 变 为 0。 到 17 行 为 止 ， 客 户 已 接收 了 从 服务 器 发 来 的 4096 字 节 的 数据 ，4096 字 节 的 接收 缓 
存 已 满 了 ， 所 以 客户 通告 窗口 为 0。 客 户 端 应 用 程序 没有 从 接收 缓存 区 中 读 任 何 数据 。 

第 18 行 中 服务 器 发 出 了 它 的 第 一 个 持续 探测 报 文 ， 它 是 收 到 客户 窗口 为 0 的 通告 约 5 秒 钟 
后 发 出 的 。 持 续 探 测报 文 的 间隔 时 间 按 照 卷 2 图 25-14 的 典型 情况 进行 。 在 第 17 行 和 18 行 之 间 
的 时 间 内 ， 客 户 离开 了 Internet。 在 接 下 来 的 2 小 时 内 ， 服 务 器 共 发 送 了 124 个 持续 探测 报 文 ， 
最 后 服务 器 丢弃 了 连接 ， 并 在 第 141 行 发 送 了 一 个 RST 报 文 (RST 是 由 tcp_drop 调 用 发 送 的 ， 
见 卷 2 第 713 页 )。 

为 什么 这 个 例子 中 服务 器 发 送 持续 探测 报 文 时 间 长 达 2 小 时 ， 为 什么 没有 按 我 们 

在 本 节 前 面 讨论 过 的 4.4BSD-Lite2 源 代码 中 的 OR 测试 的 后 半 个 条 件 来 执行 ) 我们 所 

监视 的 系统 使 用 的 是 BSD / OS V2.0， 其 中 持续 超时 测试 代码 只 测试 t_idle 是 否 大 

于 或 等 于 tcp_maxpersistidle。OR 条 件 测试 的 后 半 部 分 是 在 4.4BSD-Lite2 中 加 

入 的 新 代码 。 在 上 面 的 例子 中 ， 我 们 也 可 以 看 出 加 入 这 段 代码 的 原因 : 当 通 信 的 另 

一 端 显然 已 离开 了 Internet 时 ， 就 不 再 需要 进行 2 小 时 的 持续 探测 了 。 

我 们 在 上 面 提 到 系统 平均 每 天 有 90 个 这 种 持续 超时 的 连接 ， 这 就 意味 着 如 果 系 统 内 核 不 
终止 这 些 连 接 ，4 天 以 后 系统 中 将 有 360 个 这 样 的 “保留 ”连接 ， 这 将 引起 每 秒 发 送 6 个 无 用 的 
TCP 报 文 。 另 外 ， 因 为 HTTP 服 务 器 还 将 试图 给 这 些 客户 发 送 数 据 ， 所 以 还 会 产生 一 些 mbuf 在 
连接 发 送 等 待 队 列 中 等 待 发 送 。[Mogul 1995a] 中 提 到 :“ 当 客户 过 早 地 终止 TCP 连 接 时 ， 会 引 
发 服务 器 程序 中 隐藏 的 故障 ， 从 而 真正 地 影响 性 能 ”。 

图 14-19 的 第 7 行 中 ， 服 务 器 收 到 客户 发 来 的 一 个 FIN。 这 使 服务 器 把 连接 置 为 CLOSE_ 
WAIT 状 态 。 但 在 跟踪 过 程 中 ， 有 时 服务 器 调用 close 调 用 ， 而 转 至 LAST_ACK 状 态 ， 我 们 
并 不 能 从 Tcpdump 的 输出 中 区 别 出 来 。 的 确 ， 绝 大 多 数 这 种 连接 均 在 LAST_ACK 状 态 持 续 发 
送 探测 报 文 。 ` 

在 1995 年 早期 ， 最 初 开始 对 插口 阻塞 在 LAST_ACK 状 态 的 问题 进行 讨论 时 ， 有 

人 建议 设置 SO_KEEPRLIVE 选 项 来 检测 客户 退出 的 时 间 ， 然 后 终止 连接 ( 卷 1 的 第 23 

章 讨论 了 这 个 选项 是 怎么 工作 的 ， 卷 2 的 25.6 节 提供 了 使 用 它 的 细节 )。 不 幸 的 是 ， 这 

样 做 还 是 解决 不 了 问题 。 注 意 卷 2 第 663 页 ，KBEEPRLIVE 选 项 在 FIN_WRIT_ 1, 

FIN_WAIT 2、CLOSING 和 LAST _ ACK 状态 并 不 终止 连接 。 据 报道 ， 有 些 厂 商 对 此 

做 了 改变 。 


14.10 T/TCP 路 由 表 大 小 的 模拟 


实现 T/TCP 的 主机 为 每 一 个 与 它 通信 的 主机 保留 一 条 路 由 表 的 表 项 (第 6 章 )。 如 今 的 大 部 
分 主机 维护 的 路 由 表 只 有 一 条 缺 省 路 由 和 少数 显 式 指 定 的 路 由 ， 所 以 实现 TITCP 可 能 要 建立 
一 个 比 通常 使 用 的 路 由 表 大 得 多 的 路 由 表 。 我 们 将 使 用 HTTP 服 务 器 发 出 的 数据 来 模拟 T/TCP 
的 路 由 表 ， 看 它 的 空间 大 小 是 怎么 变化 的 。 
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我 们 只 进行 简单 的 模拟 。 我 们 通过 对 这 个 主机 进行 24 小 时 的 分 组 跟踪 来 建立 一 个 路 由 表 ， 
其 中 包含 每 一 个 与 HTTP 服 务 器 通信 的 主机 (共有 5386 个 不 同 的 IP 地 址 ) 的 路 由 。 路 由 表 保 留 的 
每 一 条 路 由 信息 都 设 有 最 后 一 次 更 新 后 的 失效 时 间 。 我 们 把 失效 时 间 分 别 设 为 30 分 钟 、60 分 
钟 和 2 小 时 来 进行 仿真 。 每 10 分 钟 扫描 一 次 路 由 表 ， 把 所 有 超过 失效 时 间 的 路 由 信息 删除 ( 模 
仿 6.10 节 中 的 in_rtqtimo 的 动作 )， 用 一 个 计数 器 来 记录 表 中 剩 下 的 条 目 。 这 些 计数 器 都 列 
在 图 14-20 中 。 

在 卷 2 的 习题 18.2 中 我 们 注意 到 ， 每 一 条 Net / 3 的 路 由 表 表 项 要 占用 152 字 节 。 在 T/TCP 中 ， 
这 个 数字 变 成 了 168 字 节 ， 增 加 的 16 字 节 是 rt_metrics 结 构 ， 用 作 TAO 缓 存 ， 不 过 在 BSD 的 
内 存 分 配 策略 中 ， 实 际 分 配 的 是 256 字 节 。 如 果 取 最 大 的 失效 时 间 : 2 小 时 ， 路 由 表 的 表 项 数 
将 达到 1000 个 ， 即 需要 256 000 字 节 。 将 失效 时 间 减 半 ， 可 以 使 内 存 的 占用 量 减 小 一 半 。 

当 有 5386 个 不 同 的 人 P 地 址 访问 这 个 服务 器 时 ， 如 果 失 效 时 间 设 为 30 分 钟 ， 路 由 表 最 大 可 
到 约 300 条 表 项 。 这 样 的 空间 对 路 由 表 而 言 并 不 是 很 不 切实 际 的 。 
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图 14-20 T/TCP 路 由 表 模 拟 : 每 次 不 同 的 表 项 数 
路 由 表 的 重用 


图 14-20 告 诉 我 们 当 使 用 不 同 的 失效 时 间 时 路 由 表 会 变 得 多 大 。 但 是 另 一 个 我 们 关心 的 问 
题 是 : 路 由 表 中 保留 的 这 些 路 由 信息 中 有 多 少 被 重用 。 没 有 必要 保留 那些 很 少 用 第 二 次 的 路 
由 信息 。 

为 了 考察 这 一 点 ， 我 们 检查 从 24 小 时 跟踪 中 得 来 的 686 755 个 分 组 ， 并 从 中 找寻 在 客户 发 
出 最 后 一 个 分 组 至 少 10 分 钟 以 后 发 出 的 SYN。 图 14-21 给 出 了 主机 数 与 静默 时 间 ( 分 钟 ) 的 相对 
关系 图 。 例 如 ， 在 5386 个 不 同 的 客户 所 在 的 主机 中 ,有 683 台 主机 在 10 分 钟 或 超过 10 分 钟 的 静 
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默 时 间 后 发 送 了 另 一 个 SYN。 在 11 分 钟 或 超过 11 分 钟 的 静默 时 间 后 发 送 了 另 一 个 SYN 的 主机 
减少 至 669 台 ， 静 默 时 间 超过 120 分 钟 发 送 了 另 一 个 SYN 的 主机 为 367 台 。 
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图 14-21 在 一 段 时 间 的 静默 后 发 送 一 个 SYN 的 主机 数 


如 果 我 们 留意 一 下 静默 一 段 时 间 后 又 重 现 的 主机 ， 它 们 的 IP 地 址 所 对 应 的 主机 名 都 是 一 
些 wwwproxyl1、webgatel、proxy、9ateway 和 类 似 于 这 样 的 名 字 ， 也 就 是 说 ， 多 数 是 
一 些 组 织 的 代理 服务 器 。 


14.11 mbuf 的 交互 


在 用 Tcpdump 对 HTTP 数 据 交 换 进 行 监视 时 ， 我 们 发 现 了 一 个 有 趣 的 现象 。 尽 管 MSS 的 值 
大 于 208( 通 常 都 是 这 样 )， 可 是 当 应 用 程序 写 数 据 的 字 节 数 在 101~208 之 间 时 ，4.4BSD 系 统 还 
是 把 它 分 成 了 两 个 mbuf( 一 个 用 来 存放 前 100 字 节 ， 另 一 个 存放 剩余 的 1~108 字 节 )， 这 样 成 了 
两 个 TCP 报 文 段 。 这 个 反常 现象 的 原因 是 : sosend 国 数 ( 卷 2 第 399 页 和 第 400 页 )。 因 为 TCP 不 
是 一 个 原子 协议 ， 所 以 每 填充 一 个 mbuf， 协 议 的 输出 函数 就 被 调用 一 次 。 

使 事情 变 得 更 精 的 是 : 因为 现在 客户 的 请 求 被 分 成 多 个 报 文 ， 慢 启动 现象 就 产生 了 。 客 
户 只 有 在 收 到 服务 器 对 第 一 个 报 文 的 确认 后 才 发 送 第 二 个 报 文 ， 这 样 就 增加 了 一 个 RTT 时 延 。 

大 量 的 HTTP 请 求 的 长 度 在 101~208 字 节 间 。 的 确 ， 在 13.4 节 中 我 们 讨论 的 17 个 请 求 的 长 
度 均 在 152~197 字 节 间 。 这 是 因为 客户 的 请 求 基本 上 都 是 一 个 固定 的 格式 ， 从 一 个 请 求 转换 到 
另 一 个 请 求 只 是 改变 URL。 

要 修补 这 个 问题 很 简单 (如 果 你 有 系统 内 核 的 源 代码 )。 常 量 MINCLSIZE 的 值 应 从 208 改 为 
101。 这 就 使 得 要 写 101~208 字 节 时 ， 不 再 使 用 两 个 mbuf， 而 是 把 超过 100 字 节 的 数据 放 入 一 个 
或 多 个 mbuf 串 中 。 做 了 这 个 改变 后 ， 还 可 以 摆脱 在 图 A-6 和 A-7 中 200 字 节 数 据 附近 的 尖峰 现象 。 


$B14* EHTTPAR $- 5 L4& 9165 2- Zn 163 


图 14-22( 后 面 给 出 ) 中 Tcpdump 跟 踪 的 客户 就 已 经 做 了 这 个 修补 。 如 果 没 有 进行 这 个 修补 ， 
客户 的 第 一 个 报 文 将 只 含有 100 字 节 ， 客 户 将 为 了 等 待 这 个 报 文 的 确认 而 花 去 一 个 RTT( 慢 起 
动 )， 然 后 客户 才 发 送 剩 余 的 52 字 节 。 只 有 在 收 到 剩余 的 字 节 后 ， 服 务 器 才 会 发 出 第 一 个 应 答 
报 文 。 

这 里 有 一 些 其 他 的 修补 方法 。 第 一 种 方法 是 : 一 个 mbuf 的 大 小 可 以 由 128 字 节 增 

加 至 256 字 节 ， 有 些 基于 伯克利 源码 的 系统 已 经 做 了 这 种 修改 (例如 ，AIX)。 第 二 种 : 

对 sosend 做 修改 ， 当 使 用 多 个 mbuf 时 ， 避 免 多 次 调用 TCP 输 出 。 


14.12 TCP 的 PCB 高 速 缓存 和 首部 预测 


当 Net/3 收 到 一 个 报 文 时 ， 它 把 指针 保存 在 相应 的 Internet PCB( 指 向 inpcb 结 构 的 
tcp_l1ast_inpcb 指 针 ， 见 卷 2 图 28-5) 中 ， 并 希望 下 个 到 达 的 报 文 还 是 属于 同一 条 连接 。 这 
样 做 避免 了 查找 TCP 的 PCB 链 表 ， 而 这 样 的 查找 的 代价 是 昂贵 的 。 每 一 次 缓存 比较 失败 ， 计 
数 器 tcps_pcbcachemiss 就 增加 。 在 卷 2 图 24-5 的 抽样 统计 中 缓存 的 命中 率 接近 80% ， 但 被 
统计 的 系统 不 是 一 个 HTTP 服 务 器 而 是 一 个 普通 的 分 时 系统 。 

当 给 定 连接 所 接收 的 下 一 个 报 文 不 是 下 一 个 希望 的 ACK( 在 数据 发 送 方 )， 就 是 下 一 个 希 
望 的 数据 报 文 (在 数据 接收 方 ) 时 ，TCP 的 输入 也 执行 一 些 首部 预测 ( 卷 2 28.4 节 )。 

在 本 章 讨论 的 HTTP 服 务 器 上 ， 我 们 观察 到 了 下 面 的 一 些 百分数 : 

。20% 的 PCB 缓 存 命中 率 (18%~20%)， 

。 对 下 一 个 ACK 报 文 的 15% 的 首部 预测 率 (14%~15%)， 

。 对 下 一 个 数据 报 文 的 30% 的 首部 预测 率 (20%~35%)。 

所 有 这 些 比率 都 是 比较 低 的 。 两 天 中 每 个 小 时 对 这 些 百分数 进行 测量 ,发 现 它们 的 变化 都 很 
小 : 上 面 括号 中 列 出 了 高 低 值 的 范围 。 

作为 一 个 在 同一 时 刻 有 大 量 不 同 客 户 使 用 TCP 的 HTTP 服 务 器 ，PCB 缓 存 命中 率 比较 低 并 
不 让 人 感到 奇怪 。 这 种 低 的 比率 与 HTTP 是 一 个 传输 协议 相 适 应 ，[McKenney and Dove 1992] 
中 表明 了 Net /3 的 PCB 缓 存 机 制 对 事务 协议 不 太 有 效 。 

通常 一 个 HTTP 服 务 器 发 送 的 数据 报 文 比 它 接收 的 要 多 。 图 14-22 是 图 13-5 中 客户 的 第 一 个 
HTTP 请 求 的 时 间 线 (客户 端口 号 为 1114)。 客 户 的 请 求 是 第 4 段 报 文 ， 服 务 器 的 应 答 是 第 5、6、 
8、9、11、13 和 14 段 报 文 。 这 里 ， 服 务 器 只 有 一 个 可 能 的 数据 报 文 预测 ， 那 就 是 第 4 段 报 文 。 
服务 器 的 下 一 个 可 能 的 ACK 报 文 预测 是 第 7、10、12、15 和 16 段 报 文 ( 当 第 3 段 报 文 到 达 时 ， 连 
接 还 没有 完全 建立 好 ， 第 17 段 报 文中 FIN 标 志 使 程序 不 再 对 首部 进行 预测 )。 这 些 ACK 报 文 究 
竟 会 不 会 限制 依赖 于 窗口 通告 的 首部 预测 ， 取 决 于 客户 端 发 送 ACK 时 它 读 取 了 多 少 服务 器 返 
回 的 数据 。 例 如 在 第 7 段 报 文 ，TCP 确 认 了 收 到 1024 字 节 数 据 ， 但 是 HTTP 客 户 应 用 程序 只 从 
插口 缓存 中 读 取 了 260 字 节 数 据 (1024 一 8192+7428)。 

当 TCP 的 200 ms 定时 器 超时 时 ， 会 发 送 一 个 延迟 的 ACK， 它 带 有 一 个 可 医 的 窗 

口 通告 。 同 样 都 是 延迟 的 ACK， 第 7 段 与 第 12 段 报 文 时 间 上 的 差距 是 799 ms: 4 个 

TCP 的 200 ms 时 钟 中 断 。 这 就 暗示 它们 都 是 延迟 的 ACK， 发 送 它们 是 因为 时 钟 中 断 ， 

而 不 是 因为 进程 执行 了 新 的 、 从 插口 缓存 读数 据 的 调用 。 第 10 段 报 文 看 上 去 好 像 也 

是 延迟 的 ACK， 因 为 它 与 第 7 段 报 文 之 间 的 时 间 为 603 ms, 
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带 有 小 的 窗口 通告 的 ACK 报 文 的 发 送 也 会 使 首部 预测 失效 ， 因 为 只 有 当 窗 口 通告 的 值 等 
于 当前 发 送 窗 日 的 值 时 ， 才 会 执行 首部 预测 。 
客户 端 ， 端 口号 1114 服务 器 端 ， 端 口号 80 
0.0 1 SYN 39719 , 
SYN 1233856000:1233856000(0) 


0.441223 EU ack 3971984993, win 4096 
0.442067 (0.0008 ack 1, win 8192 


0.579457 (0.1374) 4 PSH 1:153(152) ack 1 win 8192 


53, win 4096 
win 4096 6 












1:513(512) ack 1 


1.101392 (0.5219) 513:1025(512) ack 153, 


1.241115 (o 082) 
1.249376 (0.0083) 7 







ack 1025, win 7428 








1025:1537(512) ack 153, win 4096 


1.681472 (0.4321) 1537:2049(512) ack 153, win 4096 

















1.821249 RET 
1.853057 (0.0318 10 ack 2049, win 6404 

2049:2561(512) ack 153, win 4096 n 
1.960825 (om 
2.048981 (0.0882 12 ack 2561, win 5892 

2561:3073(512) ack 153, win m - 
2.251285 (0.2023) FIN PSH 3073:3420(347) ack 153, win 14 
2.362975 oun l 
2.369026 (0.0061) 15 ack 3421, win 5032 ， 
2.693247 (0.3242) 16 ack 3421, win 8192 

FI ; ` 

2.957395 (0.2641) 17 N 153:153(0) ack 3421, win 8192 
3.220193 (0.2628) 








图 14-22 HTTP 客 户 一 服务 器 事务 


总 的 来 说 ， 我 们 对 HTTP 服 务 器 上 首部 预测 成 功率 低 并 不 感到 惊讶 。 在 TCP 连 接 上 交换 大 
量 的 数据 时 首部 预测 工作 得 最 好 。 因 为 系统 内 核 首部 预测 的 统计 是 计算 所 有 的 TCP 连 接 ， 我 们 
只 能 猜测 这 台 主 机 上 对 下 一 个 数据 报 文 的 首部 预测 的 高 百分比 (与 对 下 一 个 ACK 的 预测 相 比 ) 是 
来 自 非常 长 时 间 的 NNTP 连 接 ( 图 15-3)， 这 种 NNTP 连 接 平均 每 条 TCP 连 接 接 收 约 1300 万 字 市 。 


慢 启 动 错 误 


注意 到 图 14-22 中 当 服 务 器 发 送 它 的 应 答 时 没有 像 预期 的 那样 发 生 慢 启动 。 我 们 预期 的 是 
服务 器 先 发 送 512 字 节 的 报 文 ， 等 待 客户 的 ACK， 然 后 发 送 下 一 个 512 字 节 的 报 文 。 而 服务 器 
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不 是 这 样 做 的 ， 它 没有 等 待 客户 的 ACK 而 是 立即 发 送 了 两 个 512 字 节 的 报 文 (第 5 段 和 第 6 段 报 
文 )。 事 实 上 这 种 现象 在 绝 大 多 数 伯克利 的 派生 系统 是 很 少见 和 异常 的 ， 因 为 许多 应 用 程序 都 
是 由 客户 发 送 大 多 数 数据 给 服务 器 。 甚 至 对 于 FTP 也 是 这 样 ， 例 如 ， 从 一 个 FTP 服 务 器 上 获取 
一 个 文件 时 ，EFTP 服 务 器 打开 一 个 数据 传输 连接 ， 实 际 上 成 了 数据 传输 的 客户 端 ( 卷 1 图 27-7 给 
出 了 一 个 这 样 的 例子 )。 

这 个 错误 出 在 tcp_input 函 数 上 。 新 的 连接 启动 时 拥塞 窗口 为 一 个 报 文 。 当 客户 完成 连 
接 建 立 后 ( 卷 2 图 28-21)， 代 码 执行 转移 到 step6， 跳 过 了 ACK 的 处 理 。 当 客户 发 送 第 一 个 数 
据 段 时 ， 它 的 拥塞 窗口 是 一 个 报 文 ， 这 是 不 正确 的 。 但 是 ， 当 服务 器 完成 连接 建立 后 ( 卷 2 图 
29-2)， 紧 接着 执行 处 理 ACK 的 代码 ， 收 到 ACK 后 拥塞 窗口 增加 1 个 报 文 ( 卷 2 图 29-7)。 这 就 是 
为 什么 服务 器 一 开始 就 连续 发 送 两 个 报 文 。 解 决 这 个 问题 的 办 法 是 把 图 11-16 中 的 代码 加 进去 ， 
不 管 这样 是 不 是 支持 TITCP。 

当 服 务 器 在 第 7 段 报 文中 收 到 ACK 时 ， 它 的 拥塞 窗口 增加 至 3 个 报 文 段 ， 但 接着 服务 器 却 
只 发 送 2 个 报 文 段 (第 8 和 第 9 段 报 文 )。 我 们 不 能 从 图 14-22 中 找 出 原因 来 ， 因 为 我 们 只 在 连接 的 
一 端 记录 报 文 (在 客户 端 运行 Tepdump)， 第 10 段 和 第 11 段 报 文 可 能 在 网 络 中 客户 端 与 服务 器 端 
中 间 的 什么 地 方 。 如 果真 是 这 样 ， 那 么 服务 器 就 的 确 像 我 们 所 预期 的 那样 : 拥塞 窗口 的 宽度 
为 3 个 报 文 段 。 

这 些 报 文 交 互 的 线索 是 从 对 分 组 跟踪 得 来 的 RTT 值 。 在 客户 端 测量 出 来 的 第 1 段 与 第 2 段 
报 文 之 间 的 RTT 是 441 ms， 第 4 段 与 第 5 段 之 间 是 521 ms, 第 7 段 与 第 8 段 之 间 是 432 ms。 这 些 
都 是 可 能 的 值 ， 在 客户 端 使 用 Ping 程 序 (指定 分 组 长 度 为 300 字 节 ) 也 表明 到 这 个 服务 器 之 间 的 
RTT 大 约 是 461 ms。 但 第 10 段 与 第 11 段 报 文 之 间 的 RTT 非 常 小 ， 只 有 107 ms, 
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通过 运行 一 个 繁忙 的 Web 服 务 器 来 重点 考察 TCP / IP 的 实现 。 我 们 可 以 看 到 ， 服 务 器 会 收 
到 Internet 上 各 种 各 样 的 客户 发 来 的 一 些 奇 怪 的 分 组 。 

在 本 章 中 ， 我 们 对 一 个 繁忙 的 Web 服 务 器 的 分 组 进行 跟踪 ， 并 对 跟踪 结果 进行 分 析 ， 着 
眼 于 各 种 实现 中 的 特性 。 我 们 得 到 了 如 下 结论 : 

* 客 户 端 SYN 的 峰值 到 达 速 率 约 为 平均 到 达 速 率 的 8 倍 (忽略 不 正常 的 客户 )。 

。 客 户 到 服务 器 之 间 的 RTT 平 均值 是 445 ms， 中 间 值 是 187 ms, 

。 采 用 典型 的 backlog 极 限 值 5 或 10 时 ， 未 完成 连接 队列 很 容易 溢出 。 这 个 问题 不 是 因为 服 

务 器 进程 太 忙 ， 而 是 因为 客户 的 SYN 至 少 要 在 队列 中 停留 一 个 RTT 时 间 。 一 个 繁忙 的 

Web 服 务 器 的 这 个 队列 需要 比 这 大 得 多 的 容量 。 同 时 内 核 也 提供 一 个 计数 器 对 这 个 队列 

的 溢出 次 数 进行 统计 ， 这 样 系 统管 理 员 就 可 以 知道 这 种 溢出 发 生 的 频 度 。 

* 对 阻塞 在 LAST_ACK 状 态 的 连接 不 断 进行 持续 探测 ， 因 为 这 种 情况 经 常 出 现 ， 所 以 系统 

必须 提供 一 种 办 法 能 让 这 种 连接 超时 。 

。 许 多 伯克利 派生 系统 在 客户 请 求 报 文 的 长 度 为 101~208 字 节 时 (通常 许多 客户 均 为 这 样 ) 

使 用 mubf 的 效率 比较 低 。 

“许多 伯克利 派生 系统 的 实现 提供 TCP PCB 高 速 缓存 ， 同 时 绝 大 多 数 的 系统 也 提供 首部 预 

测 ， 但 是 它们 对 一 个 繁忙 的 Web 服 务 器 的 帮助 却 很 小 。 

[Mogul 1995d] 中 提供 了 对 另 一 个 繁忙 的 Web 服 务 器 进行 了 相似 的 分 析 。 
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15.1 概述 


NNTP， 即 网 络 新 闻 传 输 协 议 ， 在 协作 的 主机 之 间 发 布 新 闻 文章 。NNTP 是 一 个 使 用 TCP 的 
应 用 协议 ，RFC 977[Kantor and Lapsley 1986] 对 它 进 行 了 详细 描述 。[Barber 1995] 对 它 的 一 般 实 
现 进 行 了 扩展 。RFC 1 036 [Horton and Adams 1987] 对 新 闻 文章 中 的 各 种 首部 字段 进行 了 说 明 。 

网 络 新 闻 起 源 于 ARPANET 上 的 邮件 列表 ， 随 后 发 展 成 为 Usenet 新 闻 系 统 。 邮 件 列表 今天 
还 很 流行 ， 但 如 果 纯 粹 从 容量 来 看 ， 网 络 新 闻 在 过 去 的 十 年 有 很 大 的 增长 。 从 图 13-1 中 可 以 
看 出 ，NNTP 有 了 跟 电子 邮 件 一 样 多 的 分 组 数 。[Paxson 1994a] 中 提 到 ， 从 1984 年 以 来 网 络 新 闻 
的 流量 保持 了 每 年 约 75% 的 增长 。 

Usenet 不 是 一 个 物理 的 网 络 ， 而 是 建立 在 多 个 不 同类 型 物理 网 络 上 的 一 个 逻辑 网 。 多 年 
以 前 ， 在 Usenet 上 流行 的 交换 网 络 新 闻 的 手段 是 通过 电话 线 拨号 (为 了 省 钱 通常 在 几 个 小 时 以 
后 )， 而 在 今天 ，Internet 是 绝 大 多 数 新 闻 发 布 的 主要 渠道 。[Salus 1995] 中 的 第 15 章 详细 讲述 
了 Usenet 的 历史 。 

图 15-1 是 一 个 典型 的 新 闻 系 统 的 概况 。 一 台 作 为 组 织 的 新 闻 服 务 器 的 主机 在 磁盘 上 保留 


主机 主机 
(新 闻 服 务 器 ) (新 闻 服 务 器 ) 





新 闻 机 构 的 网 络 
图 15-1 典型 的 新 闻 系 统 
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了 所 有 新 闻 文 章 。 这 个 新 闻 服 务 器 通过 Internet 与 其 他 的 新 闻 服 务 器 通信 ， 互 相 供给 新 闻 。 新 
闻 服 务 器 之 间 的 通信 使 用 NNTP 协 议 。 新 闻 服 务 器 有 各 种 不 同 的 实现 ，INN(InterNetNews) 下 
成 为 Unix 平 台 上 最 流行 的 新 闻 服 务 器 程序 。 

组 织 中 的 其 他 主机 通过 访问 新 闻 服 务 器 来 阅读 新 闻 文 章 和 选择 新 闻 组 粘贴 新 闻 。 我 们 把 
这 些 客户 程序 称 为 “新 闻 客 户 ”。 这 些 客户 程序 与 新 闻 服 务 器 之 间 的 通信 也 采用 NNTP 协 议 。 
另外 ， 如 果 新 闻 客 户 与 新 闻 服 务 器 在 同一 主机 上 ， 客 户 也 用 NNTP 阅 读 和 粘贴 新 闻 。 

不 同 的 客户 操作 系统 平台 上 有 十 几 种 新 闻 阅 读 器 (客户 程序 )。 最 原始 的 Unix 新 闻 客 户 程序 
是 Readnews， 接 着 是 Rn 和 它 的 变种 : Rrn 是 一 个 支持 远程 操作 (remote) 的 版 本 ， 它 允许 客户 和 
服务 器 在 不 同 的 主机 上 ; Trn 的 意思 是 “线索 (threaded)Rn”， 它 可 以 使 用 多 条 线索 在 一 个 新 闻 
组 中 讨论 Xrn 是 Rn 的 X11 窗口 系统 的 版 本 。GNUS 是 一 个 内 含 Emacs 编 辑 器 的 流行 的 新 闻 阅 
读 器 。 也 有 一 些 通用 的 Web 浏 览 器 ， 例 如 Netscape， 在 浏览 器 中 内 置 访问 新 闻 服务 器 的 接口 ， 
这 样 就 不 需要 单独 的 新 闻 客 户 程 序 。 就 像 不 同 的 电子 邮件 程序 提供 许多 不 同 的 用 户 接口 一 样 ， 
每 一 种 不 同 的 新 闻 客 户 程 序 也 提供 不 同 的 用 户 接口 。 

不 管 使 用 哪 种 客户 程序 ， 对 新 闻 服 务 器 来 说 ， 这 些 不 同 的 新 闻 客 户 程序 的 相同 点 是 : 都 
使 用 NNTP 协 议 ， 这 正 是 我 们 在 本 章 要 讨论 的 。 


15.2 NNTP 


NNTP 使 用 TCP 协 议 ， 知 名 的 NNTP 服 务 的 端口 号 是 119。NNTP 也 像 其 他 的 Internet 应 用 
(HTTP，FTP，SMTP， 等 等 ) 一 样 ， 客 户 发 送 ASCII 命 令 给 服务 器 ， 服 务 器 返回 数值 的 响应 码 ， 
后 面 跟着 可 选 的 ASCII 数 据 (取决 于 客户 的 命令 )。 命 令 和 响应 都 以 回 车 加 换行 结束 。 

考察 这 种 协议 最 简单 的 办 法 就 是 用 Telnet 程 序 来 连接 一 台 主 机 上 的 NNTP 端 口 ， 当 然 ， 这 
台 主 机 运行 了 NNTP 服 务 器 程序 。 但 是 ， 通 常 我 们 必须 从 一 台 能 被 服务 器 主机 识别 的 主机 上 运 
行 客户 程序 ， 典 型 的 情况 就 是 从 同一 组 织 网 络 中 的 一 台 主 机 。 例 如 ， 我 们 通过 Internet 从 其 他 
网 络 的 主机 上 来 登录 本 地 的 新 闻 服 务 器 ， 会 收 到 如 下 的 错误 信息 : 


vangogh.cs.berkley.edu $ telnet noao.edu nntp 


Trying 140.252.1.54... 由 Telnet 客 户 程序 输出 
Connected to noao.edu. 由 Telnet 客 户 程序 输出 
Escape character is '^]'. 由 Telnet 客 户 程序 输出 
502 You have no permission to talk. Goodbye. 

Connection closed by foreign host. 由 Telnet 客 户 程序 输出 


输出 的 第 4 行 是 由 NNTP 服 务 器 输出 的 ， 响 应 码 是 502。 当 TCP 连 接 被 建立 后 ，NNTP 服 务 
器 收 到 客户 的 耳 地 址 ， 将 它 与 配置 中 允许 的 卫 地 址 进行 比较 。 
在 下 面 的 例子 中 ， 我 们 从 一 台 “ 本 地 ”主机 连接 到 新 闻 服 务 器 。 


sun.tuc.noao.edu $ telnet noaoc.edu nntp 

Trying 140.252.1.54... 

Connected to noao.edu. 

Escape character is '^]'. 

200 noao InterNetNews NNRP server INN 1.4 22-Dec-93 ready (posting ok). 


这 次 从 服务 器 来 的 响应 码 为 200( 命 令 OK)， 响 应 行 中 余下 的 是 服务 器 的 有 关 信息 。 返 回信 息 的 
最 后 是 “posting ok” 或 “no posting"， 这 取决 于 是 否 人 允许 客户 粘贴 新 闻 (这 个 由 系统 管理 员 
根据 客户 的 卫 地 址 来 控制 )。 
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我 们 注意 到 服务 器 的 响应 信息 中 提 到 ， 这 个 服务 器 是 NNRP(Network News Reading 
ProtocolD 服 务 器 ， 而 不 是 INND(UmnterNetNews daemon) 服 务 器 。 先 是 INND 服 务 器 接收 客户 的 请 
求 ， 查 找 客户 的 IP 地 址 。 如 果 客 户 的 JP 地址 是 被 允许 的 ， 并 且 客 户 不 是 一 个 已 知 的 、 提 供 新 闻 
的 主机 ， 那 么 NNRP 服 务 器 被 激活 ， 替 代 INND 服 务 器 ， 假 定 客户 是 想 要 读 新 闻 而 不 是 想 要 给 
服务 器 提供 新 闻 。 这 就 可 以 将 新 闻 供 给 服务 器 ( 约 10 000 行 C 代 码 ) 与 新 闻 了 阅读 服务 器 ( 约 5000 行 
C 代 码 ) 分 别 来 实现 。 

图 15-2 列 出 了 数字 响应 码 中 第 1 位 和 第 2 位 的 含义 。 这 与 FTP 中 的 用 法 也 很 相似 ( 卷 1 的 319 页 )。 


报告 情况 的 消息 

命令 执行 成 功 

迄今 为 止 命令 执行 成 功 ， 发送 余 下 的 命令 

命令 正确 ， 但 因为 某 些 原因 不 能 执行 

命令 未 实现 ， 或 命令 不 正确 ， 或 遇 到 了 严重 的 程序 差错 


连接 、 设 置 和 杂项 消息 


非 标准 扩展 
调试 用 输出 
图 15-2 三 位 响应 码 中 第 1 位 和 第 2 位 的 含义 
我 们 发 给 新 闻 服 务 器 的 第 一 个 命令 是 nelp，help 命 令 会 将 这 个 新 闻 服 务 器 支持 的 所 有 
命令 列 出 来 。 


help 
100 Legal commands 100 是 响应 码 
authinfo user Name|pass Password 
article [MessageID|Number] 
body [MessageID|Number] 
date 
group newsgroup 
head [MessageID|Number] 
help 
ihave 
last 
list [active|newsgroups |distributions|schema] 
listgroup newsgroup 
mode reader 





newgroups yymmdd hhmmss ["GMT"] [«distributions»] 

newnews newsgroups yymmdd hhmmss ["GMT"] [«distributions»] 
next 

post 

slave 


stat [MessageID|Number] 
xgtitle [group pattern] 
xhdr header [range |MessageID] 
xover [range] 
xpat header range|MessageID pat [morepat...] 
xpath xpath MessageID 

Report problems to «usenetGnoao.edu» 


这 一 行 只 有 一 个 句点， 表示 服务 器 响应 的 结束 
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因为 客户 无 法 确认 服务 器 返回 的 信息 到 底 有 多 少 行 ， 所 以 协议 要 求 服 务 器 以 一 个 只 包含 
句号 的 行 来 结束 返回 。 如 果 某 一 行 恰好 就 是 要 以 句号 开头 ， 那 么 服务 器 会 在 前 面 再 加 上 一 个 
句号 再 发 送 ， 客 户 收 到 这 行 后 先 去 掉 这 个 句号 。 

下 面 我 们 来 看 一 下 1ist 命 令 。 如 果 不 带 任何 参数 执行 1ist 命 令 ， 它 列 出 所 有 本 服务 器 
上 每 一 个 新 闻 组 的 名 字 ， 后 面 跟着 这 个 组 中 最 后 一 篇 新 闻 和 组 中 第 一 篇 新 闻 的 编号 ， 最 后 是 
“y” 或 “m”， 表 示 是 否 允 许 这 个 组 粘贴 新 闻 或 只 是 一 个 普通 的 组 。 

list 

215 Newsgroups in form "group high low flags". 215 是 啊 应 码 


alt.activism 0000113976 13444 y 
alt.aquaria 0000050114 44782 y 


还 有 许多 行 没有 显示 出 来 


comp.protocols.tcp-ip 0000043831 41289 y 
comp.security.announce 0000000141 00117 m 


还 有 许多 行 没有 显示 出 来 


rec.skiing.alpine 0000025451 03612 y 
rec.skiing.nordic 0000007641 01507 y 


这 一 行内 有 一 个 句点 ， 表 示 服 务 器 响应 的 结束 

当然 ，215 是 响应 码 ， 而 不 是 新 闻 组 的 编号 。 这 个 例子 中 的 服务 器 向 客户 返回 了 4238 个 新 
闻 组 的 情况 ， 共 175 833 字 节 的 TCP 数 据 。 返 回 的 新 闻 组 信息 没有 按 字 母 排序 。 

在 新 闻 客 户 上 通过 较 慢 的 拨号 线 从 一 个 新 闻 服 务 器 获取 这 样 一 个 列表 ， 通 常会 感到 很 慢 。 
例如 ， 如 果 数 据 传输 速率 是 28 800 b/s， 那 么 这 个 过 程 将 花费 约 1 分 钟 (实际 测量 时 ， 使 用 这 样 
一 个 调制 解 调 器 ， 并 在 数据 发 送 时 进行 压缩 ， 大 约 需 50 秒 )。 在 以 太 网 上 ， 这 个 过 程 所 需 时 间 
不 到 1 秒 。 

9roup 命 令 用 来 指定 某 一 新 闻 组 作为 客户 的 “当前 ”新 闻 组 。 下 面 的 命令 就 是 把 
comp .protocols .tcp-ip 设 为 当前 新 闻 组 。 


group comp.protocols.tcp-ip 
211 181 41289 43 831 comp.protocols.tcp-ip 


服务 器 以 响应 码 211( 命 令 执 行 成 功 ) 开 头 ， 后 面 跟着 这 个 组 中 新 闻 总 数 的 估计 值 (181)， 然 
后 是 本 组 中 第 一 篇 新 闻 文 章 的 编号 (41289)、 最 后 一 篇 新 闻 文 章 的 编号 (43831) 和 新 闻 组 的 名 字 。 
在 新 闻 文章 的 起 始 和 结束 编号 之 间 的 差 值 (43831 一 41289=2542) 通 常 大 于 新 闻 文 章 数 (181)。 一 
方面 是 因为 有 些 文章 是 典型 的 FAQ(Frequently Asked Questions)， 它 们 的 失效 时 间 ( 通 常 为 1 个 
月 ) 比 起 其 他 大 多 数 新 闻 ( 很 少 的 几 天 ， 取 决 于 服务 器 硬盘 的 容量 ) 要 长 得 多 。 另 一 个 原因 是 这 
些 文章 能 被 显 式 地 删除 。 

下 面 我 们 用 head 命 令 来 看 一 篇 特殊 文章 (编号 为 43814) 的 首部 内 容 。 


head 43814 

221 43814 <3vtrje$ote@noao.edu> head 

Path: noao!rstevens 

From. rstevensénoao.edu (W. Richard Stevens) 

Newsgroups: comp.protocols.tcp-ip 

Subject: Re: IP Mapper: Using RAW sockets? 

Date: 4 Aug 1995 19:14:54 GMT 

Organization: National Optical Astronomy Observatories, Tucson, AZ, USA 
Lines: 29 

Message-ID: «3vtrje$oteGnoao.edu» 
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References: «3vtdhb$jnfGoclc.org» 
NNTP-Posting-Host: gemini.tuc.noao.edu 


应 答 的 第 一 行 带 有 响应 码 221( 命 令 执 行 成 功 )， 后 面 是 10 行 的 首部 ， 最 后 是 只 含有 句号 的 
— s 
大 多 数 首 部 字段 无 须 解释 ， 但 消息 的 ID 看 上 去 有 些 让 人 迷惑 。INN 试 图 按 下 面 的 
格式 生成 唯一 的 消息 ID 格式 : 当前 时 间 ， 一 个 $ 符 号 ， 进 程 ID ， 一 个 @ 和 符号， 本 地 主 
机 的 完整 域名 。 时 间 和 进程 号 的 数值 都 以 32 进 制 的 数字 串 输 出 : 数字 由 每 5 位 二 进 制 
数 为 一 组 ， 每 一 组 用 字母 : 0...9a...v 来 表示 。 
接着 我 们 用 bodqy 命 令 返回 同一 篇 文章 的 主体 。 


body 43814 
222 43814 «3vtrjeSote8noao.edu» body 
» My group is looking at implementing an IP address mapper on a UNIX 


文章 中 还 有 28 行 没有 列 出 来 
新 闻 的 首部 和 主体 可 以 用 一 个 命令 (article) 获 取 ， 但 绝 大 多 数 新 闻 客 户 是 先 取 得 文章 
的 首部 ， 人 允许 客户 根据 新 闻 的 主题 进行 选择 ， 然 后 只 取 回 用 户 所 选取 的 文章 的 主体 。 
我 们 用 quit 命 令 来 终止 到 服务 器 的 连接 。 


quit 
205 
Connection closed by foreign host. 


服务 器 的 响应 是 数字 代码 : 201。 我 们 的 客户 程序 Telnet 显 示 服 务 器 关闭 了 连接 。 

整个 客户 与 服务 器 的 交互 过 程 只 使 用 单个 的 、 由 客户 发 起 的 TCP 连 接 。 但 是 连接 上 大 部 
分 数据 都 是 由 服务 器 发 向 客户 的 。 连 接 的 持续 时 间 以 及 数据 的 交换 量 均 取决 于 用 户 阅 读 新 闻 
时 间 的 长 短 。 


15.3 一 个 简单 的 新 闻 客 户 


下 面 我 们 通过 使 用 一 个 简单 的 新 闻 客 户 程序 ， 进 行 简 要 的 新 闻 会 话 来 看 一 下 NTP 命 令 
与 响应 之 间 的 交互 。 我 们 使 用 最 老 的 新 闻 阅 读 器 Rn， 它 简单 而 且 容 易 使 用 ， 同 时 选用 它 还 
因为 它 带 有 调试 选项 (-D16 命 令 行 选项 ， 假 定 客户 程序 编译 时 打开 了 调试 选项 )。 这 让 我 们 
可 以 看 到 客户 发 出 的 NNTP 命 令 以 及 相应 的 服务 器 的 响应 。 我 们 用 黑体 字 来 表示 客户 端的 
命令 。 
1) 第 一 个 命令 是 1ist， 在 上 一 节 中 我 们 看 到 从 服务 器 返回 了 约 175 000 字 节 ， 每 行 表示 
一 个 新 闻 组 。 同 时 Rn 也 把 用 户 想 要 阅读 的 新 闻 组 以 及 在 这 组 中 最 后 读 过 的 新 闻 的 编号 
的 列表 保存 在 文件 .newsrc( 在 用 户 的 主 目录 中 ) 中 。 例 如 ， 某 一 行 : 


comp.protocols.tcp-ip: 1-43815 
通过 把 文件 中 保存 的 、 最 后 读 过 的 新 闻 的 编号 与 现 有 最 新 的 新 闻 的 编号 进行 比较 ， 客 
户 就 知道 本 组 中 是 否 还 有 没 读 过 的 新 闻 。 

2) 然后 客户 检查 是 否 有 新 的 新 闻 组 建立 。 


NEWGROUPS 950803 192708 GMT 
231 New newsgroups follow. 231 是 响应 码 
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Rn 在 用 户 的 主 目录 的 文件 .rnlast 中 保存 了 最 近 一 次 通报 新 的 新 闻 组 的 时 间 。 这 个 时 
间 成 为 newsgroups 命 令 的 参数 (NNTP 命 令 和 命令 的 参数 都 与 大 小 写 无 关 )。 在 这 个 例 
子 中 保存 的 时 间 是 : 格林 尼 治 时 间 1995 年 8 月 3 日 ，19 : 27 : 08。 服 务 器 返回 为 空 (在 返 
回 码 231 与 只 包含 句点 的 行 中 没有 其 他 的 内 容 )， 指 示 没 有 新 的 新 闻 组 建立 。 如 果 有 新 
的 新 闻 组 建立 ， 客 户 程序 会 询问 用 户 是 否 要 加 入 这 个 组 。 

3) 接着 Rn 将 显示 前 5 个 新 闻 组 中 未 读 新 闻 的 编号 ， 并 询问 是 否 要 阅读 第 一 个 新 闻 组 : 
comp .protocols.tcp-ip。 我 们 以 一 个 等 于 号 响应 ， 让 Rn 返回 一 个 对 该 组 所 有 文章 
的 一 行 摘要 ， 然 后 我 们 可 以 选择 想 要 阅读 的 文章 (可 以 用 .zninit 文 件 对 Rn 进行 配置 ， 
让 Rn 按照 我 们 期 望 的 方式 给 出 每 一 篇 新 闻 文 章 的 摘要 。 书 的 作者 配置 的 摘要 包括 文章 编 
号 、 主 题 、 文 章 的 行 数 和 文章 的 作者 )。group 命 令 是 由 Rn 发 出 的 ， 设 置 当 前 的 新 闻 组 。 


GROUP comp.protocols.tcp-ip 
211 182 41289 43832 comp.protocols.tcp-ip 


第 一 篇 未 读 文章 的 首部 和 主体 可 以 用 以 下 命令 获得 
ARTICLE 43815 
220 43815 «3vtq8o$5plGnewsflash.concordia.ca» article 


文章 未 列 出 


第 一 篇 未 读 文章 的 一 行 摘要 显示 在 终端 上 。 
4) 对 本 组 中 剩 下 的 17 个 未 读 的 新 闻 执行 xXhrd 命 令 , 然后 再 用 head 命 令 。 如 下 面 的 例子 : 


XHDR subject 43816 
221 subject fields follow 
43816 Re: RIP-2 and messy sub-nets 


HEAD 43816 
221 43816 <3vtqe3$cgb@xap.xyplex.com> head 
首部 的 14 行 未 列 出 
xhdr 命 令 能 接受 的 参数 不 但 可 以 是 单个 文章 编号 ， 还 可 以 是 号 码 范 围 ， 这 就 是 为 什么 
服务 器 返回 了 许多 行 ， 然 后 以 只 含有 句点 的 行 结束 的 原因 。 每 篇 文章 的 一 行 摘要 显示 
在 终端 上 。 
5) 我 们 项 空格 键 选 择 第 一 篇 未 读 的 文章 ， 客 户 程 序 发 出 head 命 令 ， 接 着 是 article 命 
令 。 文 章 便 显示 在 终端 E。 对 所 有 文章 相继 使 用 这 两 个 命令 。 
6) 当 我 们 读 完 这 个 组 的 新 闻 后 ， 便 移 到 另 一 个 组 ， 这 时 客户 程序 又 发 出 另 一 个 group 命 
令 。 我 们 向 服务 器 请 求 每 一 篇 未 读 新 闻 的 一 行 摘要 ， 在 新 的 组 中 再 一 次 执行 上 面 讨 论 
过 的 命令 。 

我 们 注意 到 的 第 一 件 事情 是 Rn 发 出 了 太 多 的 命令 。 例 如 ， 为 了 对 所 有 的 未 读 文章 取得 一 
行 摘要 ， 先 要 发 出 xhdr 取 得 摘要 ， 然 后 是 用 head 命 令 取 得 文章 的 首部 。 这 两 个 命令 中 的 第 
一 个 是 不 必要 的 。 增 加 这 些 额外 命令 的 原因 之 一 是 最 开始 这 些 命令 是 为 工作 在 主机 (也 是 新 闻 
服务 器 ) 上 的 客户 程序 设计 的 ， 因 此 这 些 附加 命令 可 能 要 快 一 些 ， 因 为 没有 网 络 的 传输 时 间 。 
使 用 NNTP 访 问 远程 新 闻 服 务 器 的 功能 是 后 来 加 上 去 的 。 


15.4 一 个 复杂 的 新 闻 客 户 
下 面 我 们 来 看 一 个 更 复杂 的 新 闻 客 户 程序 ，Netscape 1.1N 版 的 Web 浏 览 器 ， 它 内 置 了 新 
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闻 阅 读 器 。 这 个 客户 程序 没有 调试 选项 ， 所 以 我 们 只 有 跟踪 它 与 服务 器 之 间 交 换 的 TCP 分 组 
来 看 它 是 怎样 工作 的 。 
1) 当 我 们 启动 客户 程序 ， 并 选择 新 闻 阅 读 特性 时 ， 它 读 .newsrc 文 件 ， 并 且 只 向 服务 器 
请 求 在 这 个 文件 中 我 们 所 预订 的 新 闻 组 的 相关 内 容 。 对 每 一 个 预订 的 新 闻 组 都 发 出 
group 命 令 来 确定 起 始 和 结束 的 文章 编号 ， 并 与 .newsrc 文 件 中 所 存储 的 最 后 阅读 的 
文章 编号 进行 比较 。 这 个 例子 中 ， 作 者 在 4000 多 个 新 闻 组 中 只 预订 了 77 个 ， 因 此 共有 
77 个 group 命 令 发 向 服务 器 。 这 在 拨号 线 的 PPP 链 路 上 仅 需 23 秒 ， 相 比较 而 言 ，Rn 所 
使 用 的 1ist 命 令 要 50 秒 。 


如 果 疡 闻 组 的 数量 由 4000 减 少 至 77， 客 户 所 花 的 时 间 应 小 于 23 秒 。 实 际 上 ， 用 
sock ( 卷 1 附录 C) 发 送 77 个 同样 的 group 命 令 只 需 约 3 秒 。 看 起 来 浏览 器 在 这 77 个 命 
邻 上 登 加 了 其 他 的 启动 处 理 。 


2) 我 们 选择 一 个 有 未 读 文章 的 新 闻 组 : comp .protocols .tcp-ip， 接 着 执行 下 面 的 
命令 : 
group comp.protocols.tcp-ip 
211 181 41289 43831 comp.protocols.tcp-ip 
xover 43815-43831 
224 data follows 
43815\tping works but netscape is flaky\troot@PROBLEM WITH INEWS 
.DOMAIN FILE (root)\t4 Aug 1995 18:52:08 GMT Mt«3vtq80$5plGnewsfl 
ash.concordia.ca»NtVt1202Nt13 
43816NtRe: help me to select a terminal server tgvcnetGhntp2.hin 
et.net (gvcnet)Nt5 Aug 1995 09:35:08 GMT Xt«3vve0c$gq5Gserv.hinet 
.net»Nt«claude.80753760 @bauv111>\t1503\t23 
指定 范围 内 剩余 文章 的 一 行 摘要 
第 一 个 命令 设置 当前 新 闻 组 ， 第 二 个 命令 向 服务 器 请 求 指定 文章 的 概况 。 在 这 个 组 中 ， 
43815 是 第 一 篇 、43831 是 最 后 一 篇 未 读 的 文章 。 每 篇 文章 的 一 行 摘要 包括 : 文章 编号 、 
主题 、 作 者 、 日 期 和 时 间 、 消 息 ID、 文 章 的 引用 、 字 节 数 和 行 数 (注意 每 个 一 行 摘要 都 
很 长 ， 所 以 上 面 我 们 把 每 一 行 都 几 次 换行 。 同 时 我 们 还 把 分 隔 字段 的 tab 符 换 成 了 \t， 
这 样 便于 看 清楚 )。 
Netscape 客 户 程序 按 主题 组 织 返 回 的 概况 ， 并 显示 未 读 主 题 的 列表 以 及 文章 的 作者 和 
行 数 。 将 一 篇 文章 及 其 应 答 组 合 在 一 起 ， 称 为 编 线索 ， 因 为 一 个 议题 的 线索 都 是 组 合 
在 一 起 的 。 

3) 对 每 一 篇 我 们 选择 阅读 的 文章 ， 执 行 一 次 article 命 令 ， 文章 便 显示 出 来 。 

从 上 面 的 Netscape 新 闻 客 户 程 序 的 概况 中 可 以 看 出 ， 它 采用 两 种 优化 措施 来 减少 用 户 的 等 
待 时 间 。 第 一 个 措施 是 只 向 服务 器 请 求 用 户 所 需要 阅读 的 新 闻 组 ， 而 不 是 使 用 1ist 命 令 。 第 
二 ， 它 使 用 xover 命 令 提 供 每 一 篇 文章 的 摘要 ， 而 不 是 对 组 中 的 每 一 篇 文章 使 用 一 次 head 和 
xhrd 命 邻 。 


15.5 ”NNTP 的 统计 资料 


为 了 理解 典型 的 NNTP 的 用 法 ,我们 在 第 14 章 曾 提 到 的 主机 上 运行 Tcpdump， 来 收集 
NNTP 所 使 用 的 SYN、FIN 和 RST 报 文 。 这 个 主机 从 一 台 NNTP 新 闻 供 给 主机 上 获得 新 闻 ( 可 能 
有 其 他 备用 的 新 闻 供 给 主机 ， 但 是 观察 到 的 报 文 都 是 来 自 同一 台 主 机 )， 然 后 分 发 给 10 个 其 他 
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站 点 。 在 这 10 个 站 点 中 只 有 两 个 使 用 NNTP， 其 他 都 是 使 用 UUCP， 所 以 我 们 的 Tcpdump 只 记 
录 到 两 个 NNTP 供 给 主机 。 两 个 流出 的 NNTP 主 机 收 到 的 新 闻 只 是 这 台 主 机 收 到 的 新 闻 的 一 小 
部 分 。 最 后 ， 因 为 这 台 主 机 属于 一 个 Internet 服 务 提 供 商 ， 所 以 各 式 各 样 的 客户 把 主机 当成 新 
闻 服 务 器 来 阅读 新 闻 。 所 有 的 客户 阅读 新 闻 均 使 用 NNTP 协 议 ， 包 括 同 在 主机 上 的 新 闻 阅 读 进 
程 和 其 他 主机 上 的 新 闻 阅 读 进程 (典型 的 是 通过 PPP 或 SLIP 连 接 )。Tcpdump 连 续 运行 了 113 小 
时 (4.7 天 )， 共 收集 了 1 250 个 连接 上 的 信息 。 图 15-3 汇 总 了 这 些 信息 。 


1 个 输入 两 个 输出 新 闻 阅 读 
| 新闻 供给 新 闻 供给 客户 


连接 数 | 1 151 1 250 
流入 字 节 总 数 875 345 619 4 499 593 731 | 875 943 849 


流出 字 节 总 数 4071785 | 1194086 | 56488715 | 61754 586 
总 持续 时 间 ( 分 钟 ) 6 686 407 21 758 28 851 
每 连接 流入 字 节 数 ` 13 064 860 141 516 
每 连接 流出 字 节 数 60 773 37 315 49 078 
连接 平均 持续 时 间 ( 分 钟 ) 100 13 19 





图 15-3 单个 主机 上 4.7 天 的 NNTP 统 计 资 料 


我 们 首先 注意 输入 新 闻 供 给 主机 ， 它 每 天 收 到 约 1.86 亿 字 节 的 新 闻 ， 平 均 每 小 时 约 为 800 
万 字 节 。 同 时 我 们 也 可 以 看 出 ， 到 主 新 闻 供 给 主机 的 NNTP 连 接 的 持续 时 间 很 长 : 100 分 钟 ， 
交换 了 1300 万 字 节 的 数据 。 这 人 台 主 机 与 它 的 输入 新 闻 供 给 主机 之 间 的 TCP 连 接 经 过 一 段 时 间 
的 静默 后 由 新 闻 服 务 器 关闭 。 下 次 需要 时 再 重新 建立 连接 。 

典型 的 新 闻 呵 读 程序 使 用 NNTP 连 接 约 19 分 钟 ， 读 取 约 50 000 字 市 的 新 闻 。 绝 大 多 数 
NNTP 流 量 是 单 向 的 : 从 主 新 闻 供给 主机 流向 新 闻 服 务 嚣 ， 从 新 闻 服 务 器 流向 新 闻 阅 读 客户 。 

站 点 一 站 点 的 NNTP 流 量 之 间 有 巨大 的 差异 。 上 面 的 统计 数据 就 是 一 个 例子 : 这 
些 统计 数据 中 没有 典型 值 。 


15.6 小结 


NNTP 是 又 一 个 使 用 TCP 协 议 的 简单 协议 。 客 户 发 出 ASCII 命 令 ( 服 务 器 支持 超过 20 种 不 同 
的 命令 )， 服 务 器 的 响应 先是 响应 码 ， 然 后 跟着 一 行 或 多 行 的 应 答 ， 最 后 以 只 包含 句号 的 行 结 
束 (如 果 响 应 是 可 变 长 度 )。 类 似 其 他 的 Internet 协 议 ，NNTP 协 议 本 身 已 多 年 没有 变化 ， 但 是 由 
客户 程序 提供 给 交互 式 用 户 的 接口 却 变 化 很 快 。 

不 同 新 闻 阅 读 程序 之 间 的 很 多 区 别 都 取决 于 应 用 程序 怎样 使 用 协议 。 我 们 看 到 Rn 客户 
程序 和 Netscape 程 序 之 间 的 不 同 有 : 确定 哪些 文章 未 读 的 方法 不 同 ， 取 得 未 读 文 章 的 方法 
也 不 同 。 

NNTP 协 议 使 用 单个 TCP 连 接 维 持 整 个 的 客户 一 服务 器 数据 交换 。 这 一 点 与 HTTP 协 议 不 同 ， 
HTTP 协 议 从 服务 器 每 获取 一 个 文件 都 要 建立 一 条 TCP 连 接 。 这 种 差异 一 方面 是 因为 NNTP 客 
户 只 与 一 个 服务 器 通信 ， 而 HTTP 客 户 能 同时 与 多 个 不 同 服 务 器 通信 。 同 时 我 们 也 看 到 绝 大 多 
数 TCP 连 接 上 的 NNTP 协 议 的 数据 流 是 单 向 的 。 





第 16 章 Unix 域 协议 : 概述 


16.1 概述 


Unix 域 协议 是 进程 间 通信 (PC) 的 一 种 形式 ， 可 以 通过 与 网 络 通信 中 使 用 的 相同 插口 API 
来 访问 它们 。 图 16-1 的 左边 表示 使 用 插口 写成 的 客户 程序 和 服务 器 程序 ， 它 们 在 同一 台 主机 
上 利用 Internet 协 议 进行 通信 。 图 16-1 的 右边 表示 用 插口 写 的 利用 Unix 域 协议 进行 通信 的 客户 
程序 和 服务 器 程序 。 





图 16-1 使 用 Internet 协 议和 Unix 域 协议 的 客户 程序 与 服务 器 程序 


当 客 户 进 程 通过 TCP 往 服务 器 进程 发 送 数 据 时 ， 数 据 首先 由 TCP 输 出 处 理 ， 然 后 再 经 过 IP 
输出 处 理 ， 最 后 发 往 环 回 驱 动 器 ( 见 卷 2 的 5.4 节 )， 在 环 回 驱 动 器 中 ， 数 据 首 先 被 放 到 IP 输 入 队 
列 ， 然 后 经 过 IP 输 入 和 TCP 输 入 处 理 ， 最 后 传送 到 服务 器 。 这 样 工作 得 很 好 ， 并 且 对 于 在 相 
同 主 机 上 的 对 等 端 (客户 进程 和 服务 器 进程 ) 来 说 是 透明 的 。 然 而 ， 在 TCP/IP 协 议 栈 里 需要 大 
量 的 处 理 过 程 ， 当 数据 没有 离开 主机 时 ， 这 些 处 理 过 程 实际 上 是 不 需要 的 。 

Unix 域 协议 由 于 知道 数据 不 会 离开 主机 ， 所 以 只 需要 较 少 的 处 理 过 程 (这 样 数据 传送 就 快 
多 了 )。 不 需要 进行 检验 和 的 计算 和 验证 ， 数 据 也 不 会 失 序 ， 由 于 内 核能 控制 客户 进程 和 服务 
器 进程 的 执行 过 程 ， 流 量 控制 也 被 大 大 简化 了 ， 等 等 。 虽 然 IPC 的 其 他 形式 也 有 这 些 优点 ( 消 
息 队 列 、 共 享 内 存 、 命 名 管道 ， 等 等 )， 但 是 ，Unix 域 协议 的 优点 在 于 它们 使 用 的 接口 与 网 络 
应 用 程序 使 用 的 插口 接口 完全 一 样 : 客户 程序 调用 connect， 服 务 器 程序 调用 1isten 和 
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accept， 两 者 都 调用 read 和 write， 等 等 。 而 其 他 形式 的 IPC 使 用 完全 不 同 的 API， 其 中 有 
一 些 不 能 与 插口 以 及 其 形 方式 的 LO 较 好 地 交互 (例如 ， 在 系统 V 消 息 队 列 中 我 们 不 能 使 用 
select H). 


一 些 TCP/IP 实 现 努 力 通过 优化 去 提高 性 能 ， 例 如 当 目 的 地 址 是 环 回 接口 时 可 以 
忽略 TCP 检 验 和 的 计算 和 验证 。 


Unix 域 协议 既 提 供 一 个 流 插口 (SOCK_STREAM， 与 TCP 字 节 流 相似 )， 又 提供 一 个 数据 报 
插口 (SOCK_DGRAM， 与 UDP 数 据 报 相 似 )。Unix 域 插口 的 地 址 族 是 AF_UNIX。 在 Unix 域 协议 
中 用 于 标识 插口 的 名 字 是 文件 系统 的 路 径 名 (Internet 协 议 使 用 IP 地 址 和 端口 号 的 组 合 来 标识 
TCP 和 UDP 插口 )。 


网 络 编程 API 标 准 IEEE POSIX 1003.1g 也 支持 Unix 域 协议 ， 它 使 用 的 名 称 是 
"local IPC”。 其 地 址 族 是 AF_LOCAL， 协 议 族 是 PF_LOCAL。 因 而 使 用 术语 “Unix” 
来 描述 这 些 协 议 也 许 已 成 为 历史 。 


Unix 域 协议 还 能 提供 在 不 同 机 井 之 间 进 程 间 通 信 时 所 没有 的 功能 。 这 一 功能 就 是 描述 符 
传递 ， 即 通过 Unix 域 协议 在 互 不 相关 的 进程 间 传 送 描述 符 的 能 力 ， 这 个 例子 我 们 将 在 第 18 章 
讨论 。 

16.2 用 途 


许多 应 用 程序 使 用 Unix 域 协议 : 

1) 管道 。 在 一 个 源 于 伯克利 的 内 核 里 ， 使 用 Unix 域 流 插口 来 实现 管道 。 在 17.13 节 里 我 们 
将 讨论 pipe 系 统 调用 的 实现 。 

2) X Window 系 统 。 当 与 X11 服务 器 相连 时 ，X11 客 户 进程 通常 基于 DISPLAY 环 境 变量 的 
值 或 基于 -display 命 令 行 参数 值 来 决定 使 用 什么 协议 。 这 个 值 的 形式 是 hostname: 
display.screen， 这 里 hostname 是 可 选 的 ， 默认 值 是 当前 主机 ， 使 用 的 协议 是 最 有 效 
的 通信 方式 ， 其 中 典型 的 是 Unix 域 流 协 议 。 值 unix 强 制 使 用 Unix 域 流 协议 。 服 务 器 绑 
定 到 Unix 插 口上 的 名 字 类 似 于 /tmp/ .X11-unix/XO0, ` 
由 于 X 服 务 器 进程 通常 处 理 在 同一 台 主 机 或 者 网 络 上 的 客户 进程 的 请 求 ， 这 就 意味 着 服 
务 器 进程 需要 等 待 一 个 连接 请 求 到 达 TCP 插 口 或 者 Unix 流 插口 。 

3) BSD 打 印 假 脱 机 系统 (lpr 客 户 进程 和 1pad 服 务 器 进程 ， 在 [Stevens 1990] 的 第 13 章 详细 
描述 ) 使 用 一 个 名 为 /dev/1p 的 Unix 域 流 插口 在 相同 的 主机 上 进行 通信 。 像 X 服 务 器 一 
样 ，lpa 服 务 器 使 用 Unix 插 口 处 理 在 相同 主机 上 客户 进程 的 连接 ， 或 者 使 用 TCP 插 口 
处 理 网 络 上 客户 进程 的 连接 。 

4) BSD 系 统 记 录 器 (syslog 库 函数 ， 可 以 被 任何 应 用 程序 调用 ) 和 sys1logd 服 务 器 程序 
(使 用 一 个 名 为 /dev/1og 的 Unix 域 数据 报 插 口 在 相同 的 主机 上 进行 通信 )。 客 户 进程 写 
一 个 消息 到 插口 上 ， 服 务 器 进程 读 出 来 并 进行 处 理 。 服 务 器 进程 也 处 理 来 自 其 他 主机 
上 使 用 UDP 插 口 的 客户 进程 的 消息 ， 关 于 这 种 机 制 的 详细 介绍 见 [Stevens 1992] 的 
13.4.2, 

5) InterNetNews 守 护 程序 (innd) 创 建 一 个 Unix 数据 报 插 口 来 读 取 控制 报 文 ， 一 个 Unix 流 
插口 来 读 取 本 地 新 闻 阅 读 器 上 的 文章 。 这 两 个 插口 分 别 是 control 和 nntpin， 通常 
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是 在 /var/news/run 目 录 里 。 
以 上 内 容 并 不 全 面 ， 还 有 其 他 的 应 用 程序 使 用 Unix 插 口 。 
16.3 性 能 


比较 Unix 域 插口 与 TCP 插 口 的 性 能 是 非常 有 趣 的 。 除 了 TCP 和 UDP 插 口 ， 修 改 公共 域 
ttcp 程 序 的 一 个 版 本 ,使 之 使 用 一 个 Unix 域 流 插口 。 我 们 在 同一 台 主机 上 运行 的 两 个 程序 副 
本 之 间 传 送 16 777 216 字 节 的 数据 ， 结 果 如 图 16-2 所 示 。 


ü CEP) CEP) 百分比 






图 16-2 Unix 域 插口 与 TCP 插 口 吞吐 量 的 比较 


我 们 感 兴趣 的 是 从 一 个 TCP 插 口 到 一 个 Unix 域 插口 速度 的 增长 率 ， 而 不 是 绝对 速度 (这 些 
测试 运行 在 五 个 不 同系 统 上 ， 禾 盖 了 不 同 的 处 理 器 速度 ， 在 不 同 的 行 上 进行 速度 比较 毫 无 意 
义 )。 所 有 的 内 核 都 是 源 于 伯克利 ， 而 不 是 Solaris 2.4。 我 们 可 以 看 到 ， 在 源 于 伯克利 内 核 上 
的 Unix 插 口 比 TCP 插 口 要 快 两 倍 多 ， 在 Solaris 下 增长 率 要 慢 得 多 。 

SVR4 以 及 源 于 它 的 Solaris， 采 用 了 完全 不 同 的 方法 来 实现 Unix 域 插口 。[Rago 

1993] 的 7.5 节 描述 了 基于 流 的 SVR4 中 实现 Unix 域 插口 的 方法 。 


在 这 些 测试 里 ， 术 语 “Fastest TCP( 最 快 的 TCP)” 意 味 着 这 些 测 试 是 在 下 列 情况 下 进行 的 : 
将 发 送 缓存 和 接收 缓存 都 设置 为 32 768( 这 个 值 要 比 一 些 系统 中 的 默认 值 大 )， 直 接 指定 环 回 地 
址 而 不 是 主机 自己 的 IP 地 址 。 在 早期 的 BSD 实 现 中 ， 如 果 指 定 了 主机 的 IP 地 址 ， 那 么 在 ARP 
码 执 行 之 前 分 组 不 会 发 送 到 环 回 接口 ( 见 卷 1 图 2-4)， 这 稍微 降低 了 性 能 (这 就 是 为 什么 定时 测 
试 运行 时 要 指定 环 回 地 址 )。 这 些 主机 都 有 一 个 本 地 子 网 的 网 络 入 口 ， 其 接口 就 是 网 络 的 设备 
驱动 程序 ， 卷 1 第 87 页 中 间 网 络 入 口 140.252.13.32 就 是 一 个 例子 (SunOS 4.1.3)。 较 新 的 BSD 内 
核 有 一 条 到 主机 本 身 IP 地 址 的 路 由 ， 其 接口 就 是 环 回 驱动 程序 ， 卷 2 图 18-2 中 入 口 
140.252.13.35 就 是 一 个 例子 (BSD/OS V2.0)。 

我 们 将 在 讨论 Unix 域 协议 的 实现 后 ， 在 18.11 节 再 返回 到 性 能 问题 。 


16.4 编码 举例 


为 了 说 明 如 何 缩 小 一 个 TCP 客 户 一 服务 器 与 一 个 Unix 域 客户 一 服务 器 之 间 的 差别 ， 我 们 修 
改 了 图 1-5 和 图 1-7 中 的 客户 一 服务 器 ， 使 它们 利用 Unix 域 协议 通信 。 图 16-3 表 示 Unix 域 客户 程 
序 ， 与 图 1-5 的 不 同 之 处 用 黑体 字 表示 。 
2-6 我 们 包含 了 <sys/un.h> 头 文件 ， 客 户 和 服务 器 的 插口 地 址 结构 现在 是 sockaddr_un 
类 型 。 
11-15 socket 调用 的 协议 族 是 PF_UNIX， 调 用 stzncpy 将 与 服务 器 相 联系 的 路 径 名 (从 命 
令 行 参数 得 到 ) 写 入 插口 的 地 址 结构 。 
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1 #include "cliserv.h" 
2 #include «sys/un.h» 


3 int 
4 main(int argc, char *argv[]) 
5 { /* simple Unix domain client */ 
6 struct sockaddr un serv; 
7 char request[REQUEST], reply[REPLY]; 
8 int sockfd, n; 
9 if (argc !- 2) 
10 err quit("usage: unixcli «pathname of server»"); 
11 if ((sockfd = socket(PF UNIX, SOCK STREAM, 0)) < 0) 
12 err sys("socket error"); 
13 memset(&serv, 0, sizeof (serv)); 
14 serv.sun family = AF UNIX; 
15 strncpy(serv.sun path, argv[1], sizeof(serv.sun path)); 
16 if (connect(sockfd, (SA) &serv, sizeof(serv)) « 0) 
17 err sys("connect error"); 
18 /* form request[] ... */ 
19 if (write(sockfd, request, REQUEST) !- REQUEST) 
20 err sys("write error"); 
21 if (shutdown(sockfd, 1) « 0) 
22 err sys("shutdown error"); 
23 if ((n = read stream(sockfd, reply, REPLY)) < 0) 
24 err sys("read error"); 
25 /* process "n" bytes of reply[] ... */ 
26 exit(0); 
27 ) 





图 16-3 Unix 域 事务 客户 程序 


当 我 们 在 下 一 章 讨论 具体 实现 时 ， 就 会 看 到 导致 这 些 差别 的 原因 。 
图 16-4 为 Unix 域 服务 器 程序 ， 与 图 1-7 的 不 同 之 处 用 黑体 字 表 示 。 


1 #include "cliserv.h" 
2 fdinclude «sys/un.h» 


3 ddefine SERV PATH "/tmp/tcpipiv3.serv" 


4 int 
5 main() 
6t /* simple Unix domain server */ 
7 struct sockaddr un serv, cli; 
8 char request[REQUEST], reply[REPLY]; 
9 int listenfd, sockfd, n, clilen; 
10 if ((listenfd = socket(PF UNIX, SOCK STREAM, 0)) < 0) 
11 err Sys("socket error"); 
12 memset(&serv, 0, sizeof(serv)); 
13 serv.sun family = AF UNIX; 
14 strncpy(serv.sun path, SERV PATH, sizeof(serv.sun path)); 


图 16-4 Unix 域 事务 服务 器 程序 


unixcli.c 


unixcli.c 


unixserv.c 
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15 if (bind(listenfd, (SA) &serv, sizeof(serv)) < 0) 

16 err sys("bind error"); 

17 if (listen(listenfd, SOMAXCONN) < 0) 

18 err sys("listen error"); 

19 for (;;) < 

20 clilen = sizeof(cli); 

21 if ((sockfd = accept(listenfd, (SA) &cli, &clilen)) < 0) 

22 err sys("accept error"); 

23 if ((n = read stream(sockfd, request, REQUEST)) < 0) 

24 err sys("read error"); 

25 /* process "n" bytes of request[] and create reply[] ... */ 

26 if (write(sockfd, reply, REPLY) !- REPLY) 

27 err sys("write error"); 

28 close(sockfd);. 

29 ) 

30 ) š 

unixsero.c 

图 16-4 (fx) 


2-7 我 们 包含 了 <sys/un.h> 头 文件 ， 并 且 定 义 了 与 服务 器 相 联 系 的 路 径 名 (通常 路 径 名 应 
在 客户 程序 和 服务 器 程序 都 包含 的 头 文件 中 定义 ， 为 了 简单 ， 我 们 在 这 里 定义 )。 现 在 的 插口 
地 址 结构 是 sockaddr un 类 型 。 

13-14 调用 strncpy 将 路 径 名 填 入 到 服务 器 的 插口 地 址 结构 。 


16.5 小 结 


Unix 域 协议 提供 了 进程 间 通 信 的 一 种 形式 ， 它 使 用 同 网 络 通 信和 相同 的 编程 接口 (插口 )。 
Unix 域 协议 既 提 供 类 似 于 TCP 的 流 插口 ， 又 提供 类 似 于 UDP 的 数据 报 插口 。 从 Unix 域 协议 能 
获得 的 优点 是 速度 : 在 一 个 源 于 伯克利 的 内 核 上 ，Unix 域 协议 要 比 TCP/IP 大 约 快 两 倍 。 

Unix 域 协议 的 最 大 用 户 是 管道 和 X Window 系 统 。 如 果 X 客 户 进 程 发 现 X 服 务 器 进程 与 X 客 
户 进 程 在 同一 台 主 机 上 ， 它 就 会 使 用 Unix 域 流连 接 来 代替 TCP 连 接 ，TCP 客 户 一 服务 器 程序 和 
Unix 域 客户 一 服务 器 程序 代码 变化 是 很 小 的 。 

下 面 的 两 章 描述 Net/3 内 核 中 Unix 域 插口 的 实现 。 


17.1 概述 
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在 uipc_usrreg.c 文 件 中 实现 Unix 域 协议 的 源 代 码 包 含 16 个 国 数 ， 总 共 大 约 有 1000 行 C 
语言 源 程序 ， 这 与 在 卷 2 中 实现 UDP 的 800 行 源 程序 长 度 差 不 多 ， 比 实现 TCP 的 4500 行 源 程序 


要 短 得 多 。 


我 们 分 两 章 来 描述 Unix 域 协议 的 实现 ， 下 一 章 讨论 1O 和 描述 符 传递 ， 其 他 的 内 容 都 在 本 


章 讨 论 。 
17.2 代码 介绍 


在 一 个 C 文 件 中 有 16 个 Unix 域 函数 ， 在 其 他 C 文 件 和 两 个 头 文件 中 还 有 其 他 有 关 的 定义 ， 


如 图 17-1 所 示 。 





全 局 变量 


sys/un.h sockaddr_un 结 构 的 定义 
sys/unpcb.h unpcb 结 构 的 定义 


kern/uipc proto.c 
kern/uipc usrreq.c 
kern/uipc syscalls.c 













Unix 域 protosw{ } 和 domainf{} 的 定义 
Unix 域 函数 
pipe 和 socketpair 系 统 调用 


图 17-1 在 本 章 中 讨论 的 文件 
在 本 章 我 们 也 会 介绍 pipe 和 socketpair 系 统 调用 ， 它 们 都 使 用 本 章 描述 的 Unix 域 函数 。 


图 17-2 列 出 了 在 本 章 和 下 一 章 中 讨论 的 11 个 全 局 变量 。 








sun noname 
unp defer 
unp gcing 
unp ino 

unp rights 


unpdg recvspace 







unpdg sendspace 
unpst recvspace 


unpst sendspace 


| struct | struct domain | | BukxquuA | 4) 
unixsw struct protosw 协议 定义 (图 17-5) 


struct sockaddr 


u_long 数据 报 插 口 发 送 缓存 的 默认 范围 ，2048 字 节 
u long 流 插口 接收 缓存 的 默认 范围 ，4096 字 节 





包含 空 路 径 名 的 播 口 地 址 结 
tpt 

如 果 当 前 执行 无 用 单元 收集 函数 ， 就 设置 
下 一 个 分 配 的 伪 i_node 号 的 值 

当前 传送 中 的 文件 描述 符 数 
数据 报 插口 接收 缓存 的 默认 范围 ，4096 字 节 










流 插口 接收 缓存 的 默认 范围 ，4096 字 市 





图 17-2 在 本 章 中 介绍 的 全 局 变量 
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17.3 Unix domain 和 protosw 结 构 


图 17-3 表 示 了 Net/3 系 统 中 常见 的 三 个 domain 结 构 ， 同 时 还 有 相应 的 protosw 数 组 。 


domains: 








inetdomain: routedomain: unixdomain: 






y 


原始 正 


ea " 


. 







I 
VM 


图 17-3 domain 表 和 protosw 数 组 


卷 2 描述 了 Internet 和 路 由 选择 域 ， 图 17-4 描 述 了 Unix 域 协议 使 用 的 domain 结 构 ( 卷 2 图 7-5) 
中 的 字段 。 
由 于 历史 原因 ， 两 个 raw IP 记 录 项 在 卷 2 图 7-12 中 描述 。 


dom family PF UNIX 域 协 议 族 

dom: name unix A 

dom init 0 在 Unix 域 中 没有 使 用 
dom externalize unp externalize | 外 部 化 访问 权 ( 图 18-12) 
dom dispose unp dispose 释放 内 部 化 权利 (图 18-14) 


dom protosw unixsw 协议 转换 数组 (图 17-5) 
dom protoswNPROTOSW 协议 转换 数组 的 尾部 指针 
dom next Hidomaininiti7E, 452 
dom rtattach 在 Unix 域 中 没有 使 用 

dom rtoffset 在 Unix 域 中 没有 使 用 

dom maxrtkey 在 Unix 域 中 没有 使 用 





图 17-4 unixdomain 结 构 


仅 有 Unix domain 定 义 了 dom externalize 和 dom dispose 两 个 函数 ， 我 们 在 第 18 章 
中 讨论 描述 符 传递 时 再 描述 这 两 个 函数 。 由 于 Unix 域 没 有 路 由 选择 表 ， 所 以 domain 结 构 的 最 
后 三 个 元 素 没 有 定义 。 

图 17-5 描 述 了 unixsw 结 构 的 初始 化 ( 卷 2 图 7-13 描 述 了 Internet 协 议 的 对 应 结构 )。 

定义 三 个 协议 : 

* 与 TCP 相 似 的 流 协议 s 

* 与 UDP 相似 的 数据 报 协议 ， 

“与 原始 耻 相 似 的 raw 协 议 。 
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41 struct protosw unixsw[] = pe. preme 

42 ( 

43 (SOCK STREAM, &unixdomain, 0, PR CONNREQUIRED | PR, WANTRCVD | PR, RIGHTS, 

44 0, O, O 0, 

45 uipc usrreq, 

46 0, 0, 0, DO, 

47 Jy 

48 (SOCK DGRAM, &unixdomain, 0, PR, ATOMIC | PR ADDR | PR, RIGHTS, 

49 0, 0, Or D, 

50 uipc usrreq, 

51 0, 0, 0, O, 

52 )s 

53 (0, Q, Q0, Q, 

54 raw input, 0, raw ctlinput, 0, 

55 raw usrreq, 

56 raw init, O0, 0, O0, 

57 Fy 

58 } š 
uipc_proto.c 


图 17-5 unixsw 结 构 的 初始 化 


由 于 Unix 域 支持 访问 权 ( 就 是 我 们 在 下 一 章 要 讲 的 描述 符 传递 )，Unix 域 流 协 议和 数据 报 
协议 都 设置 PR_RIGHTS 标 志 。 流 协议 的 另外 两 个 标志 PR_CONNREQUIRED 和 PR_WANTRCVD 
与 TCP 的 标志 一 样 ， 数 据 报 协 议 的 两 个 标志 PR_ATOMIC 和 PR_ADDR 与 UDP 的 标志 一 样 。 需 要 
注意 的 是 流 协议 与 数据 报 协 议定 义 的 唯一 一 个 函数 指针 是 uipc_usrreq， 用 它 处 理 所 有 的 
用 户 请 求 。 

在 raw 协 议 的 protosw 结 构 中 的 四 个 函数 指针 都 以 raw_ 开 头 ， 与 PR_ROUTE 域 中 的 一 样 ， 
这 些 内 容 在 卷 2 的 第 20 章 介绍 。 


作者 从 来 没有 听 到 过 一 个 应 用 程序 使 用 Unix 域 的 raw 协 议 。 
17.4 ”Unix 域 插口 地 址 结构 


图 17-6 描 述 了 一 个 Unix 域 插 口 地 址 结构 的 定义 ， a _un 结 构 长 度 为 106 个 
Th. 


38 struct sockaddr un ( itih 
39 u_char sun_len; /* sockaddr length including null */ 
40 u_char sun family; /* AF UNIX */ 
41 char sun path[104]; /* path name (gag) */ 
42 ); 
un.h 


图 17-6 Unix 域 插口 地 址 结构 
开始 的 两 个 域 与 其 他 的 插口 地 址 结构 一 样 : 地 址 族 (AF_UNIX) 后 紧 跟 着 一 个 长 度 字 市 。 


自从 4.2BSD 以 来 ， 注 解 “gag” 就 存在 了 ， 也 许 原作 者 并 不 喜欢 使 用 路 径 名 来 标 
识 Unix 域 插口 ， 或 者 是 因为 完整 的 路 径 名 太 长 以 至 在 mbuf 中 写 不 下 (路 径 名 的 长 度 能 
达到 1024 字 节 )。 
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我 们 将 要 看 到 Unix 域 插口 使 用 文件 系统 中 的 路 径 名 来 标识 插口 ， 并 且 路 径 名 存储 在 
sun path 中 。sun_path 的 大 小 为 104 字 节 ， 一 个 mbuf 的 大 小 为 128 个 字 节 ， 刚 好 可 以 存放 
插口 地 址 结构 和 一 个 表示 终止 的 空 字 市 。 如 图 17-7 所 示 。 
m_type (MT_SONAME) 


sun len 
sun, family (AF UNIX) 


mn] [| 


202%% Il Y 1 


m hdrí) sockaddr uní() 
— —_ 
mbufí) (12874) 


图 17-7 存储 在 一 个 mbuf 中 的 Unix 域 插口 地 址 结构 


我 们 将 mbuf 中 的 m_type 字 段 设 置 成 MT_SONAME， 因 为 当 mbuf 含 有 一 个 插口 地 址 结构 时 
m_type 就 是 这 个 普通 值 。 虽然 从 图 上 看 最 后 两 个 字 节 没有 使 用 ， 并 且 与 这 些 插口 相 联 系 的 最 
长 路 径 名 是 104 字 节 ， 但 是 我 们 将 看 到 unp_bind 和 unp_connect 两 个 函数 允许 一 个 路 径 名 
后 面 跟 一 个 空 字 节 时 可 以 长 达 105 字 节 。 

Unix 域 插口 在 一 些 地 方 需要 使 用 命名 空间 ， 由 于 文件 系统 的 命名 空间 已 经 存在 ， 

所 以 就 选 定 了 路 径 名 。 与 其 他 例子 一 样 ，Internet 协 议 使 用 IP 地 址 和 端口 号 作为 命名 

空间 ， 系 统 V IPC([Stevens1992] 的 第 14 章 ) 使 用 32 比 特 密 钥 。 由 于 Unix 域 客户 进程 用 

路 径 名 来 与 服务 器 进程 同步 ， 从 而 通常 使 用 绝对 路 径 名 (以 /开头 )。 如 果 使 用 相对 路 

径 名 ， 客 户 程序 和 服务 器 程序 必须 在 相同 的 目录 中 ， 或 者 服务 器 程序 的 绑 定 路 径 名 

不 会 被 客户 程序 的 connect 和 sendto 发 现 。 


17.5 ”Unix 域 协议 控制 块 


Unix 域 插口 有 一 个 相关 联 的 协议 控制 块 (PCB)， 一 个 unpcb 结 构 ， 我 们 在 图 17-8 中 描述 了 
这 个 36 字 节 的 结构 。 











unpcb.h 
60 struct unpcb { 
61 struct socket *unp socket;  /* pointer back to socket structure */ 
62 struct vnode *unp vnode; /* nonnull if associated with file */ 
63 ino t unp ino; /* fake inode number */ 
64 struct unpcb *unp conn; /* control block of connected socket */ 
65 struct unpcb *unp refs; /* referencing socket linked list */ 
66 struct unpcb *unp nextref;  /* link in unp refs list */ 
67 struct mbuf *unp addr; /* bound address of socket */ 
68 int unp. cC; /* eópy of rcv.sb.cc */ 
69 int unp mbcent; /* copy of rcv.sb mbcnt */ 
70 ); 
71 #define sotounpcb(so) ((struct unpcb *)((so)-»so. pcb)) 
unpcb.h 


图 17-8 Unix 域 协议 控制 块 
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与 路 由 域 中 使 用 的 Internet PCB 和 控制 块 不 同 ， 这 两 者 都 是 通过 内 核 MALLOC 函 数 来 分 配 的 
(分 别 见 卷 2 图 20-18 和 图 22-6)， 而 unpcb 结 构 却 存储 在 mbuf 中 ， 这 可 能 是 一 个 历史 的 人 为 因素 。 

另 一 个 不 同 点 是 除了 Unix 域 协议 控制 块 以 外 ， 所 有 的 控制 块 都 保留 在 一 个 双向 循环 链表 
上 ， 当 数据 到 达 时 能 通过 查找 这 个 链表 将 数据 传递 给 相应 的 插口 。 对 于 所 有 的 Unix 域 协议 控 
制 块 而 言 ， 没 有 必要 维护 这 样 的 链表 ， 因 为 同样 的 操作 ， 也 就 是 当 客户 进程 调用 connect 时 ， 
查找 服务 器 的 控制 块 是 通过 内 核 中 已 有 的 路 径 名 查找 函数 来 实现 的 。 一 旦 找到 服务 器 的 
unpcb， 就 可 以 将 它 的 地 址 存储 在 客户 进程 的 unpcb 中 ， 因 为 Unix 域 插口 的 客户 进程 与 服务 
器 进程 在 相同 的 主机 上 。 

图 17-9 描 述 了 处 理 Unix 域 插口 的 不 同 数据 结构 的 关系 ， 在 这 个 图 中 我 们 描述 了 两 个 Unix 


描述 符 描述 符 


file() 


file() 


















DTYPE SOCKET DTYPE SOCKET f type 


f type 


socket() socket() 






SOCK DGRAM SOCK DGRAM | so- 
&unixsw[1] &unixsw[1] 






unpcb() 





unp. refs 


unp, addr 
unp. cc 












Ssockaddr un(í) 
包含 绑 定 到 插口 
的 路 径 名 





图 17-9 互相 连接 的 两 个 Unix 域 数据 报 插口 
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域 数据 报 插口 ， 我 们 假定 右边 的 (服务 器 进程 ) 插 口 已 经 绑 定 了 一 个 路 径 名 到 它 的 插口 ， 左 边 的 
(客户 进程 ) 插 口 已 经 连接 到 服务 器 的 路 径 名 上 。 

客户 进程 PCB 的 unp_conn 单 元 指向 服务 器 进程 的 PCB， 服 务 器 进程 的 unp_refs 指 向 连 
接 到 这 个 PCB 上 的 第 一 个 客户 进程 (不 像 流 插口 ， 多 个 数据 报 客户 进程 可 以 连接 到 同一 个 服务 
器 进程 上 ， 在 17.11 节 我 们 要 详细 讨论 Unix 域 数据 报 插口 的 连接 )。 

服务 器 的 unp_vnodae 单 元 指向 vnodae，vnode 与 绑 定 到 服务 器 插口 的 路 径 名 相 联系 ， 它 
的 v_socket 单 元 指向 服务 器 的 socket ， 这 就 是 定位 一 个 已 经 绑 定 了 路 径 名 的 unpcb 所 需 的 
链接 。 例 如 ， 当 服务 器 绑 定 了 一 个 路 径 名 到 它 的 Unix 域 插口 时 ， 就 会 创建 一 个 vnode 结 构 ， 
并 且 将 unpcb 的 指针 存储 在 v_node 的 v_socket 中 。 当 客户 进程 连接 到 服务 器 上 时 ， 内 核 中 
的 路 径 名 查找 代码 定位 v-node， 然 后 从 v_socket 指 针 获 得 服务 器 进程 的 unpcb 指 针 。 

被 绑 定 到 服务 器 插口 的 名 字 包 含 在 sockaddr_un 结 构 中 ，sockaddr_un 结 构 本 身 包含 
在 unp_addr 指 向 的 mbuf 结 构 中 。Unix 的 v-node 从 来 没有 包含 指向 v-node 的 路 径 名 ， 因 为 在 
一 个 Unix 文 件 系 统 中 多 个 名 字 ( 即 目录 记录 项 ) 能 同时 指向 一 个 给 定 的 文件 ( 即 v-node)。 

图 17-9 表 示 两 个 连接 的 数据 报 插口 ， 在 图 17-26 中 我 们 将 看 到 ， 处 理 流 插 口 时 与 这 里 有 些 
不 同 。 


17.6 uipc usrreq 函 数 


在 图 17-5 中 我 们 看 到 ， 对 于 流 和 数据 报 协议 ，unixsw 结 构 中 引用 的 唯一 函数 是 
uipc usrreq, 图 17-10 给 出 了 这 个 函数 的 要 点 。 


47 int 
48 uipc usrreq(so, req, m, nam, control) 
49 struct socket *so; 


uipc usrreq.c 





50 int req; 
51 struct mbuf *m, *nam, *control; 
52 ( 
53 struct unpcb *unp = sotounpcb(so); 
54 struct socket *so2; 
55 int error - 0; 
56 struct proc *p - curproc; /* XXX */ 
57 if (req -- PRU CONTROL) 
58 return (EOPNOTSUPP); 
59 if (req !- PRU SEND && control && control-»m len) ( 
60 error - EOPNOTSUPP; 
61 goto release; 
62 ) 
63 if (unp == 0 && req !- PRU ATTACH) ( 
64 error - EINVAL; 
65 goto release; 
66 ) 
67 switch (req) ( 
$ 
246 default: 


图 17-10 uipc usrreqtR A 
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247 panic("piusrreq"); 
248 ) 

249 release: 

250 if (control) 

251 m freem(control); 
252 if (m) 

253 m freem(m); 

254 return (error); 

255 ) 


uipc usrreq.c 
图 17-10 (X) 


1. 无 效 的 PRU_CONTROL 请 求 
57-58 PRU_CONTROL 请 求 来 自 ioct1l1 系 统 调用 ， 不 被 Unix 域 支持 。 
2. 仅 为 PRU_SEND 支 持 的 控制 信息 
59-62 如 果 进 程 传送 控制 信息 (使 用 sendmsg 系 统 调用 )， 请 求 必须 是 PRU_SEND; 否则 ， 
返回 一 个 错误 。 描 述 符 在 使 用 该 请 求 的 控制 信息 的 进程 间 传 递 ， 这 部 分 我 们 在 第 18 章 中 讨论 。 
3. 插口 必须 有 一 个 控制 块 
63-66 如 果 socket 结 构 没 有 指向 一 个 Unix 域 控制 块 ， 请 求 必须 是 PRU_ATTACH; 否则 ， 
返回 一 个 错误 。 
67-248 在 下 面 几 市 中 我 们 讨论 这 个 函数 的 每 一 个 case 语 句 ， 以 及 调用 的 不 同 unp_xxx 函 数 。 
249-255 释放 任何 控制 信息 和 数据 mbuf， 然 后 函数 返回 。 


17.7 PRU _ATTACH 请 求 和 unp attach Zi 


当 一 个 连接 请 求 到 达 一 个 处 于 监听 状态 的 流 插口 时 ，socket 系 统 调用 和 sonewconn 函 
数 ( 卷 2 图 15-29) 产 生 PRU_ATTACH 请 求 ， 如 图 17-11 所 示 。 


uipc usrreq.c 


68 case PRU ATTACH: 

69 if (unp) ( 

70 error - EISCONN; 

"1l break; 

72 ) 

73 error = unp attach(so); 
74 break; 


uipc usrreq.c 


图 17-11 PRU ATTACHifk 


unp_attach 国 数 完 成 这 个 请 求 的 所 有 处 理工 作 ， 如 图 17-12 所 示 。socket 结 构 已 经 被 
插口 层 分 配 和 初始 化 ， 现 在 轮 到 协议 层 分 配 和 初始 化 自身 的 协议 控制 块 ， 在 本 例 中 这 个 协议 
控制 块 为 unpcb 结 构 。 

270 int 


271 unp attach(so) 
272 struct socket *so; 


uipc usrreq.c 


273 ( 

274 struct mbuf *m; 
275 struct unpcb *unp; 
276 int error; 


图 17-12 unp attack 
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277 if (so->so_snd.sb_hiwat == 0 || so-»so rcv.sb hiwat == 0) { 

278 switch (so->so_type) { 

279 case SOCK_STREAM: 

280 error = soreserve(so, unpst sendspace, unpst recvspace); 

281 break; 

282 case SOCK DGRAM: 

283 error - soreserve(so, unpdg sendspace, unpdg recvspace); 

284 break; 

285 default: 

286 panic("unp, attach"); 

287 ) 

288 if (error) 

289 return (error); 

290 ) 

291 m = m getclr(M DONTWAIT, MT PCB); 

292 if (m -- NULL) 

293 return (ENOBUFS); 

294 unp - mtod(m, struct unpcb *); 

295 so-»so pcb = (caddr t) unp; 

296 unp->unp socket = so; 

297 return (0); 

298 } r: 

uipc usrreq.c 

图 17-12 (£3) 


1. 设置 插口 高 水 位 标记 
277-290 ”如果 插口 发 送 和 接收 的 高 水 位 标记 为 0， 则 soreserve 将 它们 设置 成 图 17-2 所 示 
的 默认 值 ， 高 水 位 标记 限制 了 存放 在 插口 发 送 和 接收 缓存 中 的 数据 量 。 当 通过 socket 系统 调 
用 来 调用 unp_attach 时 ， 这 两 个 标记 都 为 0， 但 是 当 通 过 sonewconn 调 用 unp_attach 时 ， 
它们 等 于 监听 插口 中 的 值 。 

2. 分 配 并 初始 化 PCB 
291-296 m getclr 获 得 一 个 mbuf 用 于 unpcb 结 构 ， 将 mbuf 清 零 并 将 类 型 设置 成 MT PCB, 
注意 所 有 的 PCB 单 元 都 被 初始 化 为 0。 通 过 so_pcb 和 unp_socket 指 针 将 socket 和 unpcb 
结构 连接 起 来 。 


17.8 PRU_DETACH 请 求 和 unp_detach 函 数 


当 一 个 插口 关闭 时 发 出 PRU_DETACH 请 求 ( 卷 2 图 15-39)， 这 个 请 求 跟 随 在 PRU_ 
DISCONNECT 请 求 ( 仅 针对 有 连接 的 插口 ) 的 后 面 ， 如 图 17-13 所 示 。 


uipc usrreq.c 


75 case PRU DETACH: 
76 unp detach(unp); 
T break; 


uipc usrreq.c 
图 17-13 PRU DETACHifjzk 


75-77 图 17-14 中 的 unp_daetach 国 数 完 成 PRU_DETRACH 请 求 的 所 有 处 理工 作 。 

1. 释放 v-node 
303-307 如 果 插 口 与 一 个 v-node 相 联系 ， 那 么 将 指向 PCB 结 构 的 指针 置 为 0， 并 且 调 用 
vrele 释 放 v_node。 


188 种 三 部 分 Unixi X 
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299 void pus 1 


300 unp detach(unp) 
301 struct unpcb *unp; 


302 ( 

303 if (unp-»unp vnode) ( 

304 unp-»unp vnode-»v socket - 0; 

305 vrele(unp-»unp vnode); 

306 unp-»unp vnode - 0; 

307 ) 

308 if (unp-»unp. conn) 

309 unp disconnect (unp) ; 

310 while (unp-»unp refs) 

311 unp drop(unp-»unp refs, ECONNRESET); 

312 soisdisconnected(unp-»unp socket); 

313 unp-»unp socket-»so pcb = 0; 

314 m freem(unp-»unp addr); 

315 (void) m free(dtom(unp)); 

316 if (unp rights) ( 

3227 jek 

318 * Normally the receive buffer is flushed later, 

319 * in sofree, but if our receive buffer holds references 
320 * to descriptors that are now garbage, we will dispose: 
321 * of those descriptor references after the garbage collector 
322 * gets them (resulting in a "panic: closef: count < 0"). 
323 *J 

324 sorflush(unp-»unp socket); 

325 unp gc(); 

326 ) 

324 } 


uipc usrreq.c 


图 17-14 unp detach% 


2. 如 果 插 口 连 接 了 其 他 插口 ， 则 断 开 连接 
308-309 如 果 关 闭 的 插口 连接 到 另 一 个 插口 上 ， 那 么 unp_daisconnect 就 要 断 开 这 两 个 插 
口 的 连接 ， 这 种 情况 在 流 和 数据 报 插口 中 都 会 发 生 。 

3. 断 开 连接 到 关闭 插口 的 插口 
310-311 如 果 其 他 的 数据 报 插口 连接 到 这 个 插口 ， 则 调用 unp_adrop 断 开 这 些 连接 ， 那 些 
插口 就 会 接收 到 ECONNRESET 错 误 。while 循 环 检查 连接 到 这 个 unpcb 的 所 有 unpcb 结 构 链 
表 。 函 数 unp_drop 调 用 unp_disconnect， 它 改变 PCB 的 unp_refs 单 元 去 指向 链表 的 下 
一 个 单元 。 当 整个 链表 已 经 被 处 理 后 ，PCB 的 unp_refs 指 针 将 为 0。 
312-313 被 关闭 的 插口 由 soisdaisconnect 断 开 连 接 ， 指 向 PCB 的 socket 结 构 中 的 指针 
置 为 0。 

4. 释放 地 址 和 PCB mbuf 
314-315 如 果 插 口 已 经 绑 定 到 一 个 地 址 ，m_freem 就 释放 存储 这 个 地 址 的 mbuf。 注 意 程序 
不 检查 unp_addr 是 否 为 空 ， 因 为 m_freem 会 检查 。unpcb 由 m_free 来 释放 。 

这 个 对 m_free 的 调用 应 当 移 到 函数 的 末尾 ， 因 为 指针 unp 可 能 会 在 下 一 段 程序 
里 使 用 。 


5. 检查 被 传送 的 描述 符 
316-326 如 果 内 核 里 任何 进程 传 来 了 描述 符 ， 则 unp_rights 为 非 0， 这 会 导致 调用 
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sorflush 和 unp_gc( 无 用 单元 收集 函数 )。 我 们 将 在 第 18 章 中 讨论 描述 符 的 传送 。 
17.9 PRU BINDA Klunp_ bindik ži 


可 以 通过 bind 将 Unix 域 中 的 流 和 数据 报 插口 绑 定 到 文件 系统 中 的 路 径 名 上 ，bind 系 统 
调用 产生 PRU_BIND 请 求 ， 如 图 17-15 所 示 。 


uipc usrreq.c 





78 case PRU BIND: 
79 error - unp bind(unp, nam, p); 
E n uipc usrreq.c 





图 17-15 PRU BIND 请 求 


78-80 ”所 有 的 工作 都 由 unp_bind 函 数 来 完成 ， 如 图 17-16 所 示 。 
1. 初始 化 nameidata 结 构 . 

338-339 unp_bind 分 配 一 个 nameidata 结 构 ， 这 个 结构 封装 所 有 传 给 namei 函数 的 参 
数 ， 并 使 用 NDINIT 宏 来 初始 化 这 个 结构 。CREATE 参 数 指定 要 创建 的 路 径 名 ，FOLLOW 人 允许 
紧 跟 的 符号 连接 ，LOCKPARENT 指 明 在 返回 时 必须 要 锁定 父亲 的 v-node (防止 我 们 在 完成 工作 
之 前 其 他 进程 修改 v-node)。UIO_sSYSSPACE 指 明 路 径 名 在 内 核 中 (由 于 bind 系 统 调用 将 路 径 
名 从 用 户 空间 复制 到 一 个 mbuf 中 )。soun->sun_path 是 路 径 名 的 起 始 地 址 ( 它 被 作为 nam 参 
数 传送 给 unp_bind)。 最 后 ，p 是 指向 发 布 bind 系 统 调用 的 进程 的 proc 结 构 的 指针 ， 这 个 结 
构 包 含 所 有 有 关 一 个 进程 的 信息 ， 内 核 需 要 一 直 将 该 进程 存放 在 内 存 中 。NDINIT 宏 仅仅 初始 
化 这 个 结构 ， 对 namei 的 调用 在 这 个 函数 后 面 。 





uipc usrreg.c 
328 int pc- 1 


329 unp bind(unp, nam, p) 
330 struct unpcb *unp; 
331 struct mbuf *nam; 

332 struct proc *p; 


333 ( 

334 struct sockaddr un *soun - mtod(nam, struct sockaddr un *); 
335 struct vnode *vp; 

336 struct vattr vattr; 

337 int error; 

338 struct nameidata nd; 

339 NDINIT(&nd, CREATE, FOLLOW | LOCKPARENT, UIO SYSSPACE, soun-»sun path, p); 
340 if (unp-»unp vnode !- NULL) 

341 return (EINVAL); 

342 if (nam-»m len == MLEN) { 

343 if (*(mtod(nam, caddr t) + nam-»m len - 1) !- 0) 

344 return (EINVAL); 

345 ) else 

346 *(mtod(nam, caddr t) + nam-»m len) = 0; 


347 /* SHOULD BE ABLE TO ADOPT EXISTING AND wakeup() ALA FIFO's */ 
348 if (error - namei(&nd)) 


349 return (error); 

350 vp - nd.ni vp; 

351 if (vp I= NULL) ( 

352 VOP ABORTOP(nd.ni dvp, &nd.ni cnd); 
353 if (nd.ni dvp == vp) 


图 17-16 unp bind% 
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354 vrele(nd.ni, dvp) ; 

355 else 

356 vput (nd.ni. dvp); 

357 vrele(vp); 

358 return (EADDRINUSE); 

359 ) 

360 VATTR NULL(&vattr); 

361 vattr.va type - VSOCK; 

362 vattr.va mode - ACCESSPERMS; 

363 if (error - VOP CREATE(nd.ni dvp, &nd.ni vp, &nd.ni cnd, &vattr)) 
364 return (error); 

365 Vp = nd.ni. vp; 

366 Vp-»v socket - unp-»unp socket; 

367 unp-»unp vnode = vp; 

368 unp-»unp addr = m copy(nam, 0, (int) M COPYALL); 
369 VOP. UNLOCK (vp, 0, p); 

370 return (0); 

371 ) 








uipc usrreq.c 
图 17-16 (5) 


历史 上 ， 在 文件 系统 中 查询 路 径 名 的 函数 名 一 直 是 namei， 它 代表 “name-to- 
inode 。 这 个 函数 要 搜索 整个 文件 系统 去 查找 指定 的 名 字 ， 如 果 成 功 ， 就 初始 化 内 核 
中 的 ijnode 结 构 ， 这 个 结构 包含 从 磁盘 上 得 到 的 文件 的 i_node 信 息 的 副本 。 尽 管 V- 
node 已 经 取代 了 i-node， 但 是 术语 namei 仍 然 保 留 了 下 来 。 

这 是 我 们 第 一 次 涉及 BSD 内 核 中 的 文件 系统 代码 。BSD 内 核 支持 许多 不 同 的 文件 
系统 类 型 : 标准 的 磁盘 文件 系统 (有 时 也 叫 作 “快速 文件 系统 ”)、 网 络 文件 系统 
(NES)、CD-ROM 文 件 系统 、MS-DOS 文 件 系统 、 基 于 存储 器 的 文件 系统 (对 于 目录 ， 
例如 /tmp)， 等 等 。[Kleiman 1986] 描 述 了 一 个 早期 的 v-node 实 现 。 以 VOP 作为 名 字 
开始 的 函数 一 般 是 v-node 操 作 函 数 。 这 样 的 函数 大 约 有 40 个 ， 当 被 调用 时 ， 每 个 函数 
调用 一 个 文件 系统 定义 的 函数 去 执行 这 个 操作 。 以 一 个 小 写字 母 Y 开 头 的 函数 是 内 核 
函数 ， 这 些 函 数 可 能 调用 一 个 或 更 多 的 VOP 函数。 例如 ，yYpPut 调 用 VOP_UNLOCK， 
然后 再 调用 vzrele。wvrele 函 数 释 放 一 个 v-node: v-node 的 引用 计数 器 递减 ， 如 果 达 
到 0， 就 调用 VOP_ INACTIVE, 


2. 检查 插口 是 否 被 绑 定 
340-341 如 果 插 口 PCB 的 unp_vnode 非 空 ， 插口 就 已 经 被 绑 定 ， 这 是 一 个 错误 。 

3. 以 空 字 符 (nu 了 结束 的 路 径 名 
342-346 如 果 包 含 sockaddr_un 结 构 的 mbuf 长 度 是 108(MLEN)， 长 度 值 是 从 bind 系 统 调 
用 的 第 三 个 参数 复制 的 ， 则 mbut 的 最 后 一 个 字 节 必须 是 空 字 节 。 这 就 可 以 保证 路 径 名 以 空 字 
符 结尾 ， 当 在 文件 系统 中 查找 路 径 名 时 这 是 必需 的 ( 卷 2 图 15-20 中 的 sockargs 函 数 保证 由 进 
程 传送 的 插口 地 址 结构 长 度 不 超过 108 字 节 )。 如 果 mbuf 的 长 度 小 于 108 字 节 ， 则 在 路 径 名 的 结 
尾 存放 一 个 空 字 市 ， 以 免 进 程 没有 以 空 字符 来 结束 路 径 名 。 

4. 在 文件 系统 中 查找 路 径 名 
347-349 namei 在 文件 系统 中 查找 路 径 名 ， 并 且 尽 可 能 在 相应 的 目录 中 为 指定 的 路 径 名 创 
建 一 个 记录 项 。 例 如 ， 如 果 绑 定 到 插口 的 路 径 名 是 /tmpy/ .X11-unix/X0， 那 么 文件 名 X0 必 
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须 被 加 到 目录 /tmp/.X1L1-unix 中 ， 包 含 X0 的 记录 项 的 目录 叫 作 父 目 录 。 如 果 目 录 
/tmp/ .X1L1-unix 不 存在 ， 或 者 如 果 存 在 ， 但 是 已 经 包含 一 个 Xo 的 文件 ， 那 么 就 要 返回 一 
个 错误 。 另 一 个 可 能 的 错误 是 调用 进程 没有 权限 在 父 目录 中 创建 新 的 文件 。 从 namei 想 得 到 
的 结果 是 从 函数 返回 一 个 0 值 ，nad .ni_vp 返 回 的 是 一 个 空 指针 (文件 不 存在 )。 如 果 这 两 个 条 
件 都 正确 ， 那 么 nd .ni_dvp 就 包含 要 创建 新 文件 名 的 加 锁 父 目录 。 
347 行 的 注释 指 的 是 如 果 路 径 名 已 经 存在 将 导致 binqd 返 回 错 误 ， 所 以 大 部 分 绑 
定 Unix 域 插口 的 应 用 程序 在 调用 bind 之 前 先 调用 unlink 人 删除 已 存在 的 路 径 名 。 


5. 路 径 名 已 经 存在 
350-359 如 果 nd .ni _vp 非 空 ， 那么 路 径 名 就 已 经 存在 。v-node 引 用 被 释放 ， 并 且 返 回 
EADDRINUSE 给 进程 。 

6. 创建 Y-node 
360-365 VATTR_NULL 宏 初始 化 vattr 结 构 ， 类 型 被 设置 为 VSoOCK( 一 个 插口 )， 访问 模式 
设置 为 八进制 777(ACCESSPERMS)。 这 九 个 权限 位 允许 文件 所 有 者 、 组 里 的 成 员 和 其 他 用 户 
(也 就 是 每 一 个 用 户 ) 执 行 读 、 写 和 执行 操作 。 在 指定 的 目录 中 ， 文 件 由 文件 系统 的 创建 函数 间 
接 通过 VOP_CREATE 了 时 数 创 建 。 传 递 给 创建 函数 的 参数 是 nd .ni_dvp( 父 目录 v-node 的 指针 )， 
nd.ni_cnd( 来 自 aamei 需 要 传送 给 VOP 国 数 的 附加 信息 )， 以 及 vattz 结 构 。 第 二 个 参数 
nd.ni_vp 接 收 返回 信息 ，nda.ni_vp 指 向 新 创建 的 v-node( 如 果 创 建成 功 )。 

7. 链接 结构 
365-367 vnode 和 socket 通 过 v_socket 和 unp _ vnode 指 针 互 相 指 向 对 方 。 

8. 保存 路 径 名 
368-371 调用 m_copy 将 刚刚 绑 定 到 揪 口 的 路 径 名 复制 到 一 个 mbuf 中 ，PCB 的 unp_addz 
指向 这 个 新 的 mbuf， 将 v-node 解 锁 。 


17.10 PRU _CONNECT 请 求 和 unp connect% 


17-17 描 述 了 PRU_LISTEN 和 PRU_CONNECT 请 求 。 


uipc usrreq.c 


81 case PRU LISTEN: 

82 if (unp-»unp vnode == 0) 

83 error - EINVAL; 

84 break; 

85 case PRU CONNECT: 

86 error = unp connect(so, nam, p); 
87 break; 





uipc usrreq.c 
图 17-17 PRU_LISTEN 和 PRU_CONNECT 请 求 


1. 验证 监听 插口 是 否 已 经 被 绑 定 
81-84 只 能 在 一 个 已 经 绑 定 了 一 个 路 径 名 的 插口 上 执行 1isten 系 统 调用 。TCP 没 有 这 个 需 
求 ， 在 卷 2 图 30-3 我 们 看 到 对 一 个 没有 绑 定 的 TCP 插 口 调用 1isten 时 ，TCP 就 会 选择 一 个 临 
时 的 端口 ， 并 把 它 分 配给 插口 。 
85-87 PRU_CONNECT 请 求 的 所 有 处 理工 作 都 由 unp_connect 函 数 来 执行 ， 函 数 的 第 一 部 
分 如 图 17-18 所 示 。 对 于 流 插口 ， 该 函数 被 PRU_CONNECT 请 求 调用 ; 当 临 时 连接 一 个 无 连接 
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的 数据 报 插口 时 ， 该 函数 被 PRU_SEND 请 求 调用 。 


uipc_usrreq.c 


372 int 

373 unp connect(so, nam, p) 
374 struct socket *so; 

375 struct mbuf *nam; 

376 struct proc *p; 


SFA q 
378 
379 
380 
381 
382 
383 


384 
385 
386 
387 
388 
389 
390 
391. 
392 
393 
394 
395 
396 
397 
398 
399 
400 
401 
402 
403 
404 
405 
406 
407 


struct sockaddr un *soun = mtod(nam, struct sockaddr un *); 
struct vnode *vp; 

struct socket *so2, *so3; 

struct unpcb *unp2, *unp3; 

int error; 

struct nameidata nd; 


NDINIT(&nd, LOOKUP, FOLLOW | LOCKLEAF, UIO SYSSPACE, soun-»sun path, p); 


if (nam-»m data + nam-»m len == &nam-»m dat[MLEN]) ( /* XXX */ 
if (*(mtod(nam, caddr t) + nam-»m len - 1) !- 0) 
return (EMSGSIZE); 
) else 
*(mtod(nam, caddr t) + nam-»m len) = 0; 


if (error = namei(&nd)) 
return (error); 
vp = nd.ni, vp; 


if (vp-»v type !- VSOCK) ( 
error - ENOTSOCK; 
goto bad; 


if (error - VOP ACCESS(vp, VWRITE, p-»p ucred, p)) 
goto bad; 
So2 = vp-»v socket; 
lf (S62 == 0) { 
error = ECONNREFUSED; 
goto bad; 
} 
if (so->so_type != so2->so_type) { 
error = EPROTOTYPE; 
goto bad; 
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图 17-18 unp connect: 第 一 部 分 


2. 初始 化 用 作 路 径 名 查找 的 nameidata 结 构 


383-384 nameidata 结 构 由 NDINIT 宏 进行 初始 化 。LOOKUP 参 数 指明 应 当 查 找 的 路 径 名 ， 
FOLLOW 人 允许 紧 跟 的 符号 连接 ，LOCKLEAF 参 数 指明 返回 时 必须 锁定 v-node( 防 止 在 执行 结束 
前 其 他 进程 修改 这 个 v-node)，UIO_SYSSPRACBE 参 数 指明 路 径 名 在 内 核 中 ，soun-> 
sun_path 是 路 径 名 的 起 始 地 址 ( 它 被 作为 nam 参 数 传递 给 unp_connect)。P 指 向 发 布 


connect 或 sendto 系 统 调 用 的 进程 的 proc 结 构 。 
3. 以 空 字 节 结 束 路 径 名 


385-389 如 果 播 口 地 址 结构 的 长 度 是 108 字 闻 ， 最 后 一 个 字 节 必须 为 空 ， 否 则 在 路 径 名 的 结 


尾 要 存储 一 个 空 字 贡 。 


这 段 代 码 与 图 17-16 中 的 代码 相似 ,但 实际 上 是 不 同 的 。 不 仅 第 一 个 if 语 和 名 不 同 ， 
而 且 当 最 后 一 个 字 节 非 空 时 返回 的 错误 也 不 同 : 这 里 是 EMSGSIZE， 而 图 17-16 中 是 
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EINVAL, Jb, ik AA Bur 634 4E RU 646 A — ASAE PURN o S KRAT fI 
ABR, EXsockargsJff A Jr 2 Je45 o J 3E M 3i Av 


4. 查找 路 径 名 并 检验 其 正确 性 
390-398 namei 在 文件 系统 中 查找 路 径 名 ， 如 果 返 回 值 是 OK， 那 么 在 nda.ni_vp 中 就 返回 
vnode 结 构 的 指针 。v-node 的 类 型 必须 是 VSOCK， 并 且 当 前 进程 对 插口 一 定 要 有 写 权限 。 

5. 验证 插口 是 否 已 绑 定 到 路 径 名 
399-403 一 个 插口 当前 必须 被 绑 定 到 路 径 名 上 ， 这 就 是 说 ， 在 v-node 中 的 v_socket 指 针 
-必须 非 空 。 如 果 情 况 不 是 这 样 ， 连 接 就 要 被 拒绝 。 如 果 服 务 器 当前 没有 和 运行， 但 是 在 上 一 次 
运行 时 路 径 名 留 在 文件 系统 中 ， 这 种 情况 就 有 可 能 发 生 。 

6. 验证 插口 类 型 
404-407 连接 的 客户 进程 插口 (so) 的 类 型 必须 与 被 连接 的 服务 器 进程 插口 (so2) 的 类 型 相 
同 。 也 就 是 说 ， 一 个 流 插口 不 能 连接 到 一 个 数据 报 插口 或 者 相反 。 

图 17-19 描 述 了 人 unp_connect 函 数 的 剩余 部 分 ， 它 首先 处 理 连接 流 插口 ， 然 后 调用 unp_ 
connect2 去 链接 两 个 unpcb 结 构 。 


uipc usrreq.c 


408 if (so-»so proto-»pr flags & PR CONNREQUIRED) { 
409 if ((so2-»so options & SO ACCEPTCONN) == 0 || 
410 (so3 = sonewconn(so2, 0)) == 0) ( 

411 error - ECONNREFUSED; 

412 goto bad; 

413 ) 

414 unp2 - sotounpcb(so2); 

415 unp3 - sotounpcb(so3); 

416 if (unp2-»unp addr) 

417 unp3-»unp addr - 

418 m copy(unp2-»unp addr, 0, (int) M COPYALL); 
419 SOo2 = so3; 

420 ) 

421 error - unp connect2(so, so2); 

422 bad: 

423 vput (vp) ; 

424 return (error); 

425 ) 


uipc usrreq.c 


图 17-19 unp connecttQZk: 第 二 部 分 


7. 连接 流 插口 
408-415 ” 流 插 口 需要 特殊 处 理 ， 因 为 必须 根据 监听 插口 创建 一 个 新 的 插口 。 首 先 ， 服 务 器 
插口 必须 是 监听 插口 : SO_ACCEPTCONN 标 志 必 须 被 设置 (由 卷 2 图 15-24 的 solisten 函 数 来 
完成 )。 然 后 调用 sonewconn 创 建 一 个 新 的 插口 ，sonewconn 还 把 这 个 新 的 插口 放 到 监听 插 
口 的 未 完成 的 连接 队列 中 。 

8. 复制 绑 定 到 监听 插口 的 名 字 
416-418 ”如果 监听 插口 包含 一 个 指向 mbuf 的 指针 ，mbuf 包 含 一 个 sockaddr_un, 并 且 
sockaddr_un 带 有 绑 定 到 插口 的 路 径 名 (这 应 当 总 是 对 的 )， 那 么 调用 m_copy 将 该 mbuf 复 制 
给 新 创建 的 插口 。 

图 17-20 给 出 了 在 so2=so3 赋 值 之 前 的 不 同 结构 的 状态 ， 步 又 如 下 : 
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。 服 务 器 进程 调用 socket 创 建 最 右边 的 tile、socket 和 unpcb 结 构 ， 然 后 调用 
bind 创 建 对 vnode 和 包含 路 径 名 的 mbuf 的 引用 。 随 后 调用 1isten， 人 允许 客户 进程 
。 客 户 进程 调用 socket 创 建 最 左边 的 tile、socket 和 unpcb 结 构 ， 然 后 调用 
connect，connect 调 用 unp_connect。 


。 我 们 称 中 间 的 socket 结 构 为 “已 连接 的 服务 器 插口 ”"， 它 由 sonewconn 创 建 ， 
客户 机 描述 符 服务 器 监听 描述 符 


file() 










so3 j so2 


ix 


so head 


so. q0 NULL So q0 
so q0len 0 so_q0len 
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包含 绑 定 到 监听 
插口 的 路 径 名 


包含 绑 定 到 监听 
插口 的 路 径 名 






图 17-20 流 插口 的 connect 调 用 中 的 各 种 结构 
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sonewconn 创 建 完 该 结构 后 发 出 PRU_ATTACH 请 求 ， 创 建 相应 的 unpcb 结 构 。 

。sonewconn 也 调用 soqinseque 将 刚 产 生 的 socket 放 入 监听 插口 的 未 完成 的 连接 队 
列 中 (我 们 假定 队列 开始 是 空 的 )。 我 们 还 看 到 监听 插口 的 已 完成 连接 队列 (so_q 和 
so_glen) 为 空 ， 新 建 socket 的 so_head 指 针 反 过 来 指向 监听 插口 。 

“unp_connect 调 用 m_copy 创 建 包 含 绑 定 到 监听 播 口 的 路 径 名 的 mbuf 的 副本 ， 中 间 的 
unpcb 指 向 这 个 mbuf。 我 们 将 看 到 getpeername 系 统 调用 需要 这 个 副本 。 

。 最 后 要 注意 的 是 ， 还 没有 一 个 file 结 构 指 向 新 建 的 socket( 事 实 上 是 通过 sonewconn 
设置 SS_NOFDREF 标 志 来 说 明 这 一 点 的 )。 当 监听 服务 器 进程 调用 accept 时 ， 就 会 给 该 
socket 分 配 一 个 file 结 构 和 对 应 的 文件 描述 符 。 

vnode 指 针 没有 从 监听 插口 复制 到 连接 的 服务 器 插口 。vnode 结 构 的 唯一 作用 就 是 允许 

客户 进程 通过 v_socket 指 针 调 用 connect 定 位 相应 的 服务 器 的 socket 结 构 。 

9. 连接 两 个 流 或 数据 报 插 口 

421 unp_connect 中 的 最 后 一 步 是 调用 unp_connect2( 下 一 节 描 述 )， 这 对 于 流 和 数据 报 
插口 是 一 样 的 。 就 图 17-20 而 言 ， 该 函数 连接 最 左边 的 两 个 unpcb 结 构 的 unp_conn 字 段 ， 并 
且 将 新 创建 的 插口 从 监听 服务 器 的 socket 的 未 完成 连接 队列 移 到 已 完成 连接 队列 中 ,我们 将 
在 后 面 的 章节 中 描述 最 终 的 数据 结构 (图 17-26)。 


17.11 PRU _CONNECT2 请 求 和 unp _connect2 函 数 


图 17-21 中 的 PRU_CONNECT2 请 求 仅仅 作 为 socketpair 系 统 调用 产生 的 一 个 结果 ， 而 
且 这 个 请 求 只 在 Unix 域 中 得 到 支持 。 


uipc usrreq.c 
88 case PRU, CONNECT2: pce- 
89 error = unp connect2(so, (struct socket *) nam); 
90 break; i 

uipc usrreq.c 


图 17-21 PRU_CONNECT2 请 求 


88-90 这 个 请 求 的 所 有 处 理工 作 都 由 unp_connect2 函 数 来 完成 ， 正 如 我 们 在 图 17-22 中 看 
到 的 一 样 ，unp_connect2 国 数 又 是 从 内 核 中 的 其 他 两 个 地 方 调 用 的 。 

我 们 将 在 17.12 节 介绍 socketpair 系 统 调 用 和 soconnect2 国 数 ， 在 17.13 节 介绍 pipe 
系统 调用 。 图 17-23 描 述 Junp_connect2 函 数 。 

1. 检验 插口 类 型 
426-434 两 个 参数 都 是 指向 socket 结 构 的 指针 : so 连接 到 so2。 首 先 检查 两 个 插口 的 类 
型 是 否 相同 : 是 流 插 口 或 者 是 数据 报 插口 。 

2. 把 第 一 个 插口 连接 到 第 二 个 插口 
435-436 通过 字段 unp_conn 将 第 一 个 unpcb 连 接 到 第 二 个 unpcb， 然 而 ， 下 面 的 步 又 在 
流 和 数据 报 之 间 是 不 同 的 。 

3. 连接 数据 报 插口 
438-442 PCB 的 unp_nextzref 和 unp_refs 字 段 连接 数据 报 插口 。 例 如 ， 考 虑 一 个 绑 定 
了 路 径 名 /tmp/foo 的 数据 报 服务 器 插口 ， 然 后 一 个 数据 报 客户 进程 连接 到 这 个 路 径 名 。 图 
17-24 给 出 了 在 unp_connect2 返 回 后 得 到 的 unpcb 结 构 (为 了 简便 起 见 ， 我 们 设 有 描述 相应 
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系统 调用 | 





PRU CONNECT 


uipc usrreq 





图 17-22 unp connect2 K% HI 





TNT uipc usrreq.c 

427 unp connect2(so, so2) 

428 struct socket *so; 

429 struct socket *so2; 

430 ( 

431 struct unpcb *unp = sotounpcb(so); 

432 struct unpcb *unp2; 

433 if (so2-»so type !- so-»so type) 

434 return (EPROTOTYPE); 

435 unp2 - sotounpcb(so2); 

436 unp-»-unp conn = unp2; 

437 switch (so-»so type) ( 

438 case SOCK DGRAM: 

439 unp-»unp nextref - unp2-»unp refs; 

440 unp2-»unp refs - unp; 

441 soisconnected(so); 

442 break; 

443 case SOCK STREAM: 

444 unp2-»unp conn - unp; 

445 Ssoisconnected(so); 

446 Ssoisconnected(so2); 

447 break; 

448 default: 

449 panic("unp. connect2"); 

450 ) 

451 return (0); 

452 ) : 
uipc usrreq.c 





图 17-23 unp connect2iK4& 


R17 Unix: 实现 197 





图 17-24 连接 的 数据 报 插 口 


的 Eile 或 socket 结 构 ， 或 者 与 最 右边 插口 相连 接 的 vnode)。 我 们 描述 了 在 
unp_connect2 中 用 到 的 两 个 指针 unp 和 unp2。 

对 于 一 个 已 经 有 连接 的 数据 报 插 口 ，unp_refs 指 向 连接 到 该 插口 的 所 有 插口 的 链表 的 
第 一 个 PCB。 通 过 unp_nextref 指 针 遍 历 这 个 链表 。 

图 17-25 表 示 了 第 三 个 数据 报 插 口 ( 左 边 的 那个 ) 连 接 到 同一 服务 器 后 的 三 个 PCB 的 状态 ， 
绑 定 路 径 名 都 是 /tmp/foo。 


unp 








unp. refs 






connect ("/tmp/ foo") connect (*/tmp/foo") bind("/tmp/foo") 






图 17-25 另 一 个 插口 (左边 ) 连 接 到 右边 的 插口 


两 个 PCB 字 段 unp_refs 和 unp _nextref 必 须 分 开 ， 因 为 图 17-25 中 右边 的 插口 自己 能 
连接 到 其 他 的 数据 报 插口 。 

4. 连接 流 插口 
443-447 流 插口 的 连接 与 数据 报 插口 的 连接 是 不 同 的 ， 这 是 因为 只 能 有 一 个 客户 进程 连接 
到 一 个 流 插口 上 (服务 器 进程 )， 客 户 进程 和 服务 器 进程 的 PCB 的 unp_conn 指 针 分 别 指向 对 方 
的 PCB ， 如 图 17-26 所 示 ( 这 个 图 是 图 17-20 的 延续 )。 

这 个 图 中 的 另 一 个 变化 是 对 于 带 有 so2 参 数 的 soisconnected 的 调用 ， 这 个 调用 将 插口 从 
监听 插口 的 未 完成 连接 队列 (图 17-20 中 的 so_q0) 移 到 已 完成 连接 队列 (so_q) 中 。accept 要 从 这 
个 队列 中 获取 新 创建 的 插口 ( 卷 2 图 15-34)。 需 要 注意 的 是 ，soinconnected( 卷 2 图 15-30) 设 置 
so_state 中 的 SS_ISCONNECTED 标 志 ， 仅 当 揪 口 的 so_headq 指 针 非 空 时 才 将 socket 从 未 完 
成 连接 队列 移 到 已 完成 连接 队列 (如 果 揪 口 的 so_head 指 针 为 空 时 ， 播 口 不 在 任何 一 个 队列 中 )。 
所 以 ， 在 图 17-23 中 ， 对 带 有 so 参数 的 soisconnected 的 第 一 次 调用 仅仅 改变 so_state。 
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图 17-26 已 建 连 的 流 插口 


17.12 _ socketpaizr 系 统 调用 


socketpair 系 统 调用 仅 在 Unix 域 中 得 到 支持 。 它 创建 两 个 插口 并 连接 它们 ， 同 时 返回 


两 个 描述 符 ， 互 相连 接 在 一 起 。 例 如 ， 一 个 用 户 进程 发 出 调用 : 


int fa[2]; 


socketpair(PF UNIX, SOCK STREAM, 0, fd); 


$17x Unixi øA: 实现 199 


创建 一 对 连接 在 一 起 的 全 双 工 Unix 域 流 插 口 。 在 fa [0] 中 返回 第 一 个 描述 符 ， 在 fd [1] 中 返 
回 第 二 个 描述 符 。 如 果 第 二 个 参数 是 SOCK_DGRAM， 则 创建 一 对 互相 连接 的 Unix 域 数据 报 插 
口 。 如 果 调 用 成 功 ，socketpair 返 回 0; 否则 ， 返 回 一 1。 

图 17-27 描 述 了 socketpair 系 统 调用 的 实现 。 


: uipc. syscalls.c 
229 struct socketpair args ( 


230 int domain; 
231 int type; 

232 int protocol; 
233 int *rsv; 

234 ); 


235 socketpair(p, uap, retval) 
236 struct proc *p; 
237 struct socketpair args *uap; 


238 int retval[]; 

239 ( 

240 struct filedesc *fdp - p-»p fd; 

241 struct file *fpl, *fp2; 

242 struct $ocket *sol, *so2; 

243 int fd, error, sv[2]; 

244 if (error = socreate(uap-»domain, &sol, uap-»type, uap-»protocol)) 
245 return (error); 

246 if (error = socreate(uap-»domain, &so2, uap-»type, uap-»protocol)) 
247 goto freel; 

248 if (error = falloc(p, &fpl1, &fd)) 

249 goto free2; 

250 sv[0] - fd; 

251 fpl-»f flag - FREAD | FWRITE; 

252 fpl-»f type = DTYPE SOCKET; 

253 fpl-»f ops = &socketops; 

254 fpl-»f data = (caddr t) sol; 

255 if (error - falloc(p, &fp2, &fd)) 

256 goto free3; 

257 fp2-»f flag = FREAD | FWRITE; 

258 fp2-»f type = DTYPE SOCKET; 

259 fp2-»f ops = &socketops; 

260 fp2-»f data = (caddr t) so2; 

261 sv[1] = fd; 

262 if (error = soconnect2 (sol, so2)) 

263 goto free4; 

264 if (uap-»type == SOCK DGRAM) ( 

265 Ut 

266 * Datagram socket connection is asymmetric. 
267 */ 

268 if (error = soconnect2(so2, sol)) 

269 goto free4; 

270 ) 

271 error - copyout((caddr t) sv, (caddr t) uap-»rsv, 2 * sizeof(int)); 
272 retval[0] = sv[0]:; /* XXX ??? */ 

273 retval[1] = sv[1]; [* XXX, $99 */ 

274 return (error); 


275 free4: 


图 17-27 socketpair 系 统 调用 
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276 ffree(fp2); 
277 fdp-»fd ofiles[sv[1]] = 0; 
278 free3: 
279 ffree(fp1l); 
280 fdp-»fd ofiles[sv[0]] = 0; 
281 free2: 
282 (void) soclose(so2); 
283 freel: 
284 (void) soclose (sol); 
285 return (error); 
286 } ; 
uipc syscalls.c 
图 17-27 (£&) 
1. 参数 


229-239 四 个 整 型 参数 ， 从 domian 到 rsv， 在 本 节 开 始 部 分 用 户 调用 socketpair 的 例 
子 中 进行 了 描述 。 函 数 socketpair 定 义 中 描述 的 三 个 参数 (p、uap 和 retval) 是 传送 到 内 
核 中 的 系统 调用 的 参数 。 

2. 创建 两 个 插口 和 两 个 描述 符 
244-261 调用 socreate 两 次 ， 创 建 两 个 插口 。 两 个 描述 符 中 的 第 一 个 由 fal1loc 分 配 。 在 
fa 中 返回 描述 符 的 值 ， 而 指向 相应 Eile 结构 的 指针 在 Ep1 中 返回 。 设 置 FREAD 和 FWRITE 标 


sv[0] sv[1] 
描述 符 描述 符 





















p 














图 17-28 由 sockerpair 创 建 的 两 个 流 插口 
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志 (由 于 插口 是 全 双 工 的 )， 文 件 类 型 设置 为 DTYPE_SOCKET， 设置 {_ops 指 向 五 个 插口 函数 
指针 的 数组 ( 卷 2 图 15-13)， 设 置 {_data 指 向 socket 结 构 。 第 二 个 描述 符 由 falloc 分 配 ， 并 
且 初 始 化 相应 的 file 结 构 。 
3. 连接 两 个 插口 
262-270 soconnect2 发 出 PRU_CONNECT2 请 求 ， 这 个 请 求 仅 在 Unix 域 中 得 到 支持 。 如 果 
系统 调用 正在 创建 流 插 口 ， 立 即 从 soconnect2 中 返回 。 此 时 的 结构 如 图 17-28 所 示 。 
如 果 创 建 两 个 数据 报 插口 ， 就 需要 调用 soconnect2 两 次 ， 每 一 次 调用 连接 一 个 方向 。 
_ 两 次 调用 以 后 ， 我 们 就 有 了 图 17-29 中 的 结构 。 


sv[0] sv[1] 
fpl i fp2 
file() file() 





DTYPE SOCKET 
FREAD | FWRITE 


: 


unp_nextref 


图 17-29 由 sockerpair 创 建 的 两 个 数据 报 插口 


4. 将 两 个 描述 符 复制 给 进程 
271-274 copyout 将 两 个 描述 符 复制 给 进程 。 


带 有 注释 XXX ??? 的 两 个 表达 式 第 一 次 出 现在 4.3BSD Reno 版 本 里 。 因 为 
copyout 把 两 个 描述 符 复制 给 进程 ， 所 以 不 需要 这 两 个 表达 式 。 我 们 将 看 到 pipe 系 
统 调 用 通过 设置 retval [0] 和 retval [1] 返 回 两 个 描述 符 ， 其 中 retval 是 系统 调 
用 的 第 三 个 参数 。 内 核 中 处 理 系统 调用 的 汇编 子 程序 总 是 将 两 个 整数 Fetval [0] 和 
retval [1] 放 在 机 器 的 寄存 器 里 作为 任何 系统 调用 的 返回 值 。 但 是 在 用 户 进 程 中 ， 
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激活 系统 调用 的 汇编 子 程序 必须 查看 这 些 寄 存 器 并 且 返 回 进程 希望 得 到 的 值 。C 函 数 

库 中 的 pipe 函数 实际 上 是 这 样 做 的 ， 但 是 Socketpaiz 函 数 并 不 这 么 做 。 

5. soconnect2 m% 

图 17-30 中 的 函数 发 出 PRU_CONNECT2 请 求 ， 该 函数 仅 在 socketpair 系 统 调用 中 被 调用 。 





225 soconnect2 (sol, so2) wipe pakete 
226 struct socket *sol; 

227 struct socket *so2; 

228 ( 

229 int S = splnet(); 

230 int error; 

231 error - (*sol-»so proto-»pr usrreq) (sol, PRU CONNECT2, 

232 (struct mbuf *) 0, (struct mbuf *) so2, (struct mbuf *) 0); 
233 splx(s); 

234 return (error); 

235 ) 





uipc socket.c 


图 17-30 soconnect2 pk% 


17.13 ”Pipe 系统 调用 
图 17-31 中 的 pipe 系 统 调用 与 socketpaiz 系 统 调用 几乎 相同 。 


- uipc syscalls.c 
645 pipe(p, uap, retval) 


646 struct proc *p; 
647 struct pipe args *uap; 


648 int retval[]; 

649 ( 

650 struct filedesc *fdp - p-»p fd; 

651 struct file *rf, *wf; 

652 struct socket *rso, *wso; 

653 int fd, error; 

654 if (error = socreate(AF UNIX, &rso, SOCK, STREAM, 0)) 
655 return (error); E 
656 if (error - socreate(AF UNIX, &wso, SOCK STREAM, 0)) 
657 goto freel; 

658 if (error - falloc(p, &rf, &fd)) 

659 goto free2; 

660 retval[0] = fd; 

661 rf-»f flag = FREAD; 

662 rf-»f type = DTYPE SOCKET; 

663 rf-»f ops = &socketops; 

664 rf-»f data = (caddr t) rso; 

665 if (error - falloc(p, &wf, &fd)) 

666 goto free3; 

667 wf-»f flag = FWRITE; 

668 wf-»-f type = DTYPE SOCKET; 

669 wf-»f ops = &socketops; 

670 wf-»f data = (caddr t) wso; 

671 retval[1] = fd; 

672 if (error - unp connect2(wso, rso)) 

673 goto free4; 


图 17-31 pipe 系 统 调用 
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674 return (0); 

675 free4: 

676 ffree(wf); 

677 fdp-»fd ofiles[retval[1]] = 0; 
678 free3: 

679 ffree(rf); 

680 fdp-»fd ofiles[retval[0]] = 0; 
681 free2: 

682 (void) soclose(wso); 

683 freel: 

684 (void) soclose(rso); 

685 return (error); 

686 ) 


uipc syscalls.c 


图 17-31 ( 续 ) 


654-686 调用 socreate 创 建 两 个 Unix 域 流 插口 ，pipe 系 统 调 用 与 socketpair 系 统 调用 
的 唯一 差别 就 是 pipe 把 两 个 描述 符 中 的 第 一 个 设置 成 只 读 (read-only)， 把 第 二 个 设置 成 只 写 
(write only); 两 个 描述 符 由 retval 参 数 返 回 ， 而 不 是 通过 copyout; pipe 直 接 调 用 
unp connect2, 而 不 是 通过 soconnect2 函 数 。 


Unix 的 一 些 版 本 ， 特 别 是 SVR4， 创 建 的 管道 两 端 均 可 进行 读 写 。 
17.14 PRU ACCEPTiÉ:K 


对 于 一 个 流 揪 口 ， 接 受 一 个 新 的 连接 所 需 的 大 部 分 处 理工 作 由 其 他 内 核 国 数 完成 : 
sonewconn 创 建新 的 socket 结 构 ， 并 发 出 PRU_ATTACH 请 求 ，accept 系 统 调用 将 插口 从 
已 完成 连接 队列 中 删除 并 调用 soaccept。soaccept( 卷 2) 仅 发 出 PRU_ACCEPT 请 求 ， 用 于 
Unix 域 的 PRU_ACCEPT 请 求 。 如 图 17-33 所 示 。 

返回 客户 进程 的 路 径 名 
94-108 如果 客户 进程 调用 bind， 并 且 同 客户 进程 的 连接 仍然 存在 ， 那 么 这 个 请 求 把 含有 
客户 进程 路 径 名 的 sockaddr_un 复 制 到 由 nam 参 数 指 同 的 mbuf。 否 则 ， 返 回 空 路 径 名 
(sun nonname), 


uipc usrreq.c 


91. case PRU DISCONNECT: 
92 unp. disconnect (unp) ; 
93 break; 


uipc usrreq.c 


图 17-32 PRU_DISCONNECT 请 求 


uipc usrreq.c 

94 case PRU ACCEPT: 

95 f3 

96 * Pass back name of connected socket, 

97 * if it was bound and we are still connected 

98 * (our peer may have closed already!). 

99 */ 
100 if (unp-»unp conn && unp-»unp conn-»unp addr) ( 

101 nam-»m len = unp-»unp conn--»unp. addr-»m len; 
102 bcopy (mtod(unp-»unp conn-»unp addr, caddr t), 


图 17-33 PRU _RACCEPT 请 求 
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103 mtod (nam, caddr t), (unsigned) nam-»m len); 
104 ) else ( 
105 nam-»m len - sizeof(sun noname); 
106 *(mtod(nam, struct sockaddr *)) - sun noname; 
107 ) 
108 break; " 
uipc usrreq.c 
图 17-33 (£&) 


17.15 PRU _ DISCONNECT 请 求 和 unp disconnect 函 数 


如 果 插 口 已 建 连 ，close 系 统 调用 就 发 出 PRU_DISCONNECT 请 求 ， 如 图 17-32 所 示 。 
91-93 P_disconnect 国 数 完 成 所 有 的 断 连 工作 ， 如 图 17-34 所 示 。 








453 void uipc, usrreq.c 
454 unp disconnect (unp) 
455 struct unpcb *unp; 
456 ( 
457 struct unpcb *unp2 = unp-»unp conn; 
458 if (unp2 -- 0) 
459 return; 
460 unp-»unp conn - 0; 
461 switch (unp-»unp socket-»so type) ( 
462 case SOCK DGRAM: 
463 if (unp2-»unp refs -- unp) 
464 unp2-»unp refs = unp-»unp nextref; 
465 else ( 
466 unp2 = unp2-»unp refs; 
467 for (;;) f 
468 if (unp2 == 0) 
469 panic("unp disconnect"); 
470 if (unp2-»unp nextref -- unp) 
471 break; 
472 unp2 = unp2-»unp nextref; 
473 ) 
474 unp2-»unp nextref = unp-»unp nextref; 
475 ) 
476 unp-»unp nextref = 0; 
477 unp-»unp socket-»so state &- ^SS ISCONNECTED; 
478 break; 
479 case SOCK STREAM: 
480 soisdisconnected (unp-»unp. socket) ; 
481 unp2-»unp. conn = 0; 
482 soisdisconnected (unp2-»unp socket); 
483 break; 
484 ) 
485 ) . 
uipc usrreq.c 
17-34. unp disconnect Á% 
1. 检查 插口 是 否 有 连接 


458-460 ”如果 插口 没有 连接 到 其 他 插口 ， 则 函数 立即 返回 ， 否则 就 将 Lnp_conn 置 为 0。 表 
明 这 个 插口 没有 连接 到 其 他 插口 。 
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2. 将 关闭 的 数据 报 PCB 从 链表 中 删除 
462-478 ”这 部 分 代码 把 关闭 插口 的 PCB 从 已 连接 数据 报 PCB 的 链表 中 删除 。 例 如 ， 如 果 我 
们 从 图 17-25 开 始 ， 然 后 关闭 最 左边 的 插口 ， 就 得 到 图 17-35 中 的 数据 结构 。 由 于 unp2-> 
unp_refs 等 于 unp( 被 关闭 的 PCB 是 链表 的 头 )， 所 以 被 关闭 的 PCB 的 unp_nextref 指 针 成 


unp ”正在 关闭 的 插口 unp2 


unpcb() - unpcb() Ww unpcbO 










[onp conn  |NULL 










unp_conn |worr 
[anp refs | wwrr unp refs Funp refs | 






unp nextref |NULL 


np nextref | wur 


unp nextref 






bind("/tmp/foo") 






connect("/tmp/foo") connect ( * /tmp/foo") 


图 17-35 最 左边 插口 关闭 后 图 17-25 中 的 链表 所 发 生 的 变化 


如 果 我 们 再 从 图 17-25 开 始 ， 关 闭 中 间 的 插口 ， 就 得 到 图 17-36 中 的 数据 结构 。 这 一 次 被 关 
闭 插 口 的 PCB 就 不 是 链表 的 头 。unp2 从 链表 的 头 开 始 查看 被 关闭 的 PCB 之 前 的 PCB。 删 除 关 
闭 的 PCB 之 后 ，unp2 就 指 癌 图 17-36 中 最 左边 的 PCB。 然 后 将 关闭 PCB 的 unp_nextref 指 针 
赋 给 链表 (unp) 上 前 一 个 PCB 的 unp_nextref。 






unp2 unp ”正在 关闭 的 插口 

















unp_conn 


NULL 
unp refs unp refs 





unp nextref unp nextref unp nextref |NULL 








bind("/tmp/foo") 





connect("/tmp/foo") connect (*/tup/£oo*) 





图 17-36 中 间 插 口 关闭 后 图 17-25 中 的 链表 所 发 生 的 变化 


3. 完成 流 插 口 的 断 连 
479-483 由 于 一 个 Unix 域 流 插口 只 能 同一 个 流 插口 建 连 ， 因 而 不 涉及 链表 ， 断 开 连 接 就 比 
较 简 单 。 将 连接 对 方 的 unp_conn 指 针 置 为 0， 并 且 对 客户 进程 和 服务 器 进程 均 调用 


soisdisconnected, 
17.16 PRU SHUTDOWNi&:kflunp shutdown ph ži 


当 进 程 调用 shutdown 禁 止 任何 进一步 输出 时 ， 发 出 PRU_SHUTDOWN 请 求 ， 如 图 17-37 所 示 。 


206 第 三 部 分 Unixi X 


uipc usrreq.c 


109 case PRU SHUTDOWN: 

110 socantsendmore (so); 
111 unp shutdown (unp); 
112 break; 


uipc usrreq.c 
17-37. PRU SHUTDOWNIÉzK 


109-112 socantsendmore 设 置 插口 标志 禁止 任何 进一步 的 输出 ， 然 后 调用 图 17-38 中 的 
unp_shutdown 函 数 。 


uipc usrreq.c 
494 void 
495 unp shutdown (unp) 
496 struct unpcb *unp; 
497 ( 
498 struct socket *so; 
499 if (unp-»unp socket-»so type == SOCK STREAM && unp-»unp conn && 
500 (so = unp-»unp conn-»unp. socket)) 
501 socantrcvmore (so); 
502 ) 


uipc usrreq.c 
图 17-38 unp shutdownt& 7 
如 果 是 流 插 口 通知 对 等 插口 


499-502 对 于 数据 报 插 口 不 需要 再 做 什么 。 但 是 ， 如 果 这 个 插口 是 流 插口 ， 并 且 还 与 男 一 
个 插口 相连 ， 且 对 等 端 插 口 还 有 一 个 socket 结 构 ， 则 对 对 等 端 插口 调用 socantrcvmore。 


17.17 PRU _ABORT 请 求 和 unp drop Zi 


如 果 插 口 是 一 个 监听 插口 ， 并 且 示 完成 的 连接 依然 在 队列 中 ， 那 么 soclose 就 发 出 
PRU_ABORT 请 求 ， 如 图 17-39 所 示 。soclose 对 在 未 完成 连接 队列 和 已 完成 连接 队列 中 的 每 
一 个 插口 都 发 出 这 个 请 求 ( 卷 2 图 15-39)。 


=M i. HBT 
209 case PRU ABORT: 
210 unp drop(unp, ECONNABORTED); 


211 break; » 
——————————————————————————————— — uipc usrreq.c 


17-39 PRU _ABORT 请 求 


209-211 图 17-40 中 的 unp_arop 国 数 产 生 一 个 ECONNRBORTED 错 误 ， 我 们 在 图 17-14 中 看 


到 ，unp_detach 也 调用 带 有 参数 ECONNRESET 的 unp_qrop 国 数 。 
TIE áipe: usrreg.c 
503 void pc. q 

504 unp drop(unp, errno) 

505 struct unpcb *unp; 


506 int errno; 

507 ( 

508 struct socket *so = unp-»unp socket; 
509 So-»so error = errno; 


图 17-40 unp dropt&Z& 
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510 unp disconnect (unp); 

511 if (so-»so head) ( 

512 So-»so, pcb = (caddr t) 0; 
513 m freem(unp-»unp. addr); 
514 (void) m free(dtom(unp)); 
515 sofree(so); 

516 ) 

517 } 





uipc usrreq.c 
图 17-40 (23) 


1. 保存 错误 ， 断 开 插 口 连接 
509-510 设置 插口 的 so_error 值 ， 并 且 如 果 插 口上 有 连接 ， 就 调用 unp_disconnect。 
2. 如 果 揪 口 在 监听 服务 器 的 队列 上 ， 就 删除 数据 结构 
511-516 如 果 插 口 的 so_head 指 针 非 空 ， 那 么 插口 当前 不 是 在 监听 插口 的 未 完成 连接 队列 
上 ， 就 是 在 监听 插口 的 已 完成 连接 队列 上 。 从 socket 到 unpcb 的 指针 都 置 为 0， 调 用 
m_freem 释 放 包 含 绑 定 到 监听 插口 的 路 径 名 的 mbuf( 回 想 图 17-20)， 下 一 次 调用 m_free 释 放 
unpcb 结 构 。sofree 释 放 socket 结 构 。 由 于 插口 在 监听 服务 器 的 任何 一 个 队列 中 ， 所 以 还 
没有 与 它 相 对 应 的 Eile 结 构 ， 因 为 该 结构 是 在 插口 从 已 完成 连接 队列 中 被 删除 时 调用 
accept 分 配 的 。 


17.18 其 他 各 种 请 
图 17-41 描 述 了 其 余 6 个 尚未 讨论 的 请 求 。 


uipc usrreq.c 


212 case PRU SENSE: 

213 ((struct stat *) m)-»st blksize = so-»so snd.sb hiwat; 
214 if (so-»so type == SOCK STREAM && unp-»unp conn !- 0) ( 
215 l so2 = unp->unp_conn->unp_socket; 

216 ( (struct stat *) m)->st_blksize += so2-»so rcv.sb cc; 
217 } 

218 ( (struct stat *) m)-»st dev = NODEV; 

219 if (unp->unp_ino == 0) 

220 unp->unp_ino = unp_ino++; 

221 ( (struct stat *) m)->st_ino = unp->unp_ino; 

222 return (0); 

223 case PRU_RCVOOB: 

224 return (EOPNOTSUPP); 

225 case PRU_SENDOOB: 

226 error = EOPNOTSUPP; 

227 break; 

228 case PRU_SOCKADDR: 

229 if (unp-»unp addr) { 

230 nam-»m len - unp-»unp addr-»m len; 

231 bcopy (mtod(unp-»unp addr, caddr t), 

232 mtod(nam, caddr t), (unsigned) nam-»m len); 
233 ) else 

234 nam-»m len - 0; 

235 break; 


图 17-41 其 他 的 PRU_xxx 请 求 
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236 case PRU_PEERADDR: 


237 if (unp-»unp conn && unp-»unp conn-»unp addr) { 

238 nam-»m len = unp-»unp conn-»unp addr-»m len; 

239 bcopy (mtod (unp-»unp conn-»unp addr, caddr t), 

240 mtod(nam, caddr t), (unsigned) nam-»m len); 
241 ) else 

242 nam-»m len = 0; 

243 break; 

244 case PRU SLOWTIMO: 

245 break; 


uipc usrreq.c 
图 17-41 (£3) 


1. PRU_SENSE 请 求 
212-217 这 个 请 求 是 由 fstat 系 统 调用 发 出 的 。 将 插口 发 送 缓存 高 水 位 标记 的 当前 值 赋 给 
stat 结 构 的 st_blksize 作 为 返回 值 。 另 外 ， 如 果 这 个 插口 是 一 个 有 连接 的 流 插 口 ， 那 么 将 
对 等 端 插口 接收 缓存 中 的 字 节 数 加 到 这 个 值 上 。 当 我 们 讨论 18.2 节 中 的 PRU_SEND 请 求 时 会 看 
到 ， 这 两 个 值 之 和 就 是 两 个 相连 的 流 插口 间 的 实际 “管道 ”容量 。 
218 将 st_dev 置 为 NODEV( 所 有 比特 为 全 1 的 常数 值 ， 代 表 一 个 不 存在 的 设备 )。 
219-221 i-node 号 标识 文件 系统 中 的 文件 。 该 值 (stat 结 构 的 st_ino 字 有 段 ) 是 作为 一 个 Unix 
域 插口 的 i-node 号 返回 的 ， 它 是 从 全 局 变量 unp_ino 得 到 的 一 个 唯一 值 。 如 果 还 没有 为 
unpcb 分 配 一 个 这 类 伪 i-node 号 ， 就 将 unp_ino 的 当前 值 赋 给 该 unpcb 作 为 其 i-node 号 ， 然 后 
将 unp_ino 加 1。 之 所 以 称 这 些 i-node 号 为 伪 i-node 号 ， 是 因为 它们 并 不 是 文件 系统 中 的 实际 
文件 。 它 们 仅 在 需要 时 由 一 个 全 局 计数 器 产生 。 如 果 要 求 将 Unix 域 插口 绑 定 到 文件 系统 中 的 
一 个 路 径 名 (不 是 这 种 情况 )，PRU_SENSE 请 求 就 能 使 用 st_dev 和 st_ino 值 来 代替 绑 定 路 
径 名 。 

全 局 变量 unp_ino 的 递增 应 当 在 赋值 之 前 而 不 是 在 赋值 之 后 完成 。 在 内 核 重启 

后 ， 对 Unix 域 插口 第 一 次 调用 fstat 时 ， 存 储 在 插 口 unpcb 中 的 值 将 为 0。 但 是 ， 如 

果 对 相同 的 插口 再 次 调用 fstat， 由 于 unpcb 中 的 当前 值 是 0， 所 以 将 全 局 变量 

unp_ino 的 非 0 值 保存 在 其 PCB 中 。 l 


2. PRU_RCVOOB 请 求 和 PRU_SENDOOB 请 求 
223-227 Unix 域 不 支持 带 外 数据 。 

3. PRU_SOCKRADDR 请 求 
228-235 这 个 请 求 返 回 绑 定 到 揪 口 的 协议 地 址 (在 Unix 域 插口 中 为 路 径 名 )。 如 果 路 径 名 绑 
定 到 插口 ，unpP_addr 就 指向 包含 存储 路 径 名 的 sockaddar_un 的 mbuf。uipc_ usrreqg 的 
nam 参 数 指向 由 调用 者 分 配 的 、 用 于 接收 结果 的 mbuf。 调 用 m_copy 产 生 揪 口 地 址 结构 的 副 
本 。 如 果 路 径 名 没有 绑 定 到 插口 ， 那 么 将 mbuf 的 长 度 域 设置 为 0。 

4. PRU_PEERRDDR 请 求 
236-243 处 理 这 个 请 求 与 前 一 个 请 求 相 似 ， 但 是 期 望 的 路 径 名 是 绑 定 到 与 发 起 连接 的 插口 
相连 的 插口 的 名 字 。 如 果 发 起 连接 的 插口 已 连接 到 一 个 对 等 端 插口 ， 那 么 unp_conn 非 空 。 

没有 绑 定 路 径 名 的 插口 对 这 两 个 请 求 的 处 理 与 PRU_RACCEPT 请 求 的 处 理 不 同 (图 
17-33)。 当 没有 名 字 存 在 时 ，getsockname 和 getpeetrname 系 统 调用 通过 第 三 个 
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参数 返回 0。 而 accept 函 数 通过 第 三 个 参数 返回 16， 通 过 第 二 个 参数 返回 包含 在 
sockaddr un 中 由 空 字 节 组 成 的 路 径 名 (sun noname 是 一 个 通用 的 sockaddr 结 
构 ， 它 的 长 度 是 16 字 节 )。 
5. PRU_SLOWTIMO 请 求 

244-245 由 于 Unix 域 协议 不 使 用 定时 器 ， 所 以 从 来 不 会 发 出 这 个 请 求 。 


17.19 小 结 


我 们 在 本 章 看 到 的 Unix 域 协议 实现 简单 直观 。 它 提供 了 流 和 数据 报 插 口 ， 基 中流 协议 类 
似 于 TCP， 数 据 报 协议 类 似 于 UDP。 

路 径 名 能 绑 定 到 Unix 域 插口 。 服 务 器 进程 绑 定 其 知名 的 路 径 名 ， 客 户 进程 连接 到 这 个 路 
径 名 。 数 据 报 插口 也 可 以 建 连 ， 与 UDP 一 样 ， 多 个 客户 进程 可 以 连接 到 同一 个 服务 器 进程 上 。 
Socketpair 函 数 也 可 以 创建 尚未 命名 的 Unix 域 插口 。Unix pipe 系 统 调 用 能 创建 两 个 互相 
连接 的 Unix 域 流 插口 ， 源 于 伯克利 系统 的 管道 实际 上 就 是 Unix 域 流 插口 。 

与 Unix 域 插口 有 关 的 协议 控制 块 是 unpcb 结 构 。 与 其 他 域 不 同 的 是 这 些 PCB 并 不 保存 在 
一 个 链表 中 。 然 而 ， 当 一 个 Unix 域 插口 需要 与 男 一 个 Unix 域 插口 同步 时 (connect 或 
sendto), 通过 内 核 中 的 路 径 名 查找 函数 namei 来 定位 目的 unpcb， 函 数 namei 得 到 一 个 
vnode 结 构 ， 通 过 这 个 结构 得 到 目的 unpcb。 


第 18 章 Unix 域 协议 : WO 和 描述 符 的 传递 


18.1 概述 


本 章 继续 描述 上 一 章 的 Unix 域 协议 实现 。 本 章 的 第 一 节 讲 述 IIO、PRU_SEND 和 
PRU_RCVD 请 求 ， 其 余部 分 介绍 描述 符 传递 。 


18.2 PRU _SEND 和 PRU _RCVD 请 求 


无 论 什么 时 候 ， 当 一 个 进程 给 Unix 域 插口 发 送 数 据 或 者 控制 信息 时 都 要 发 出 PRU_SEND 
请 求 。 请 求 的 第 一 部 分 首先 处 理 控制 信息 ， 然 后 处 理 数 据 报 插 口 ， 如 图 18-1 所 示 。 


140 case PRU_SEND: PS 
141 if (control && (error = unp internalize(control, p))) 
142 break; 

143 switch (so-»so type) ( 

144 case SOCK DGRAM:( 

145 struct sockaddr *from; 

146 if (nam) ( 

147 if (unp-»unp conn) ( 

148 error - EISCONN; 

149 break; 

150 ) 

151 error = unp connect(so, nam, p); 

152 if (error) 

153 break; 

154 ) else ( 

155 if (unp-»unp conn -- 0) ( 

156 error - ENOTCONN; 

157 break; 

158 ) 

159 ) 

160 so2 = unp-»unp conn-»unp socket; 

161 if (unp-»unp. addr) 

162 from = mtod(unp-»unp addr, struct sockaddr *); 
163 else 

164 from - &sun noname; 

165 if (sbappendaddr(&so2-»so rcv, from, m, control)) ( 
166 sorwakeup(so2); 

167 m = 0; 

168 control - 0; 

169 ) else 

170 error - ENOBUFS; 

171 if (nam) 

172 unp disconnect (unp) ; 

173 break; 

174 ) 


uipc usrreq.c 


图 18-1 数据 报 插 口 的 PRU_sSEND 请 求 
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1. 初始 化 所 有 控制 信息 
141-142 如 果 进 程 使 用 sendmsg 发 送 控 制 信息 ， 函 数 unp_internalize 将 幅 入 的 描述 符 
转换 成 Eile 指 针 ， 我 们 将 在 18.4 市 中 描述 这 个 函数 。 

2. 暂时 连接 一 个 无 连接 的 数据 报 插口 
146-153 如 果 进 程 传送 一 个 带 有 目的 地 址 的 插口 地 址 结构 (也 就 是 说 ，nam 参 数 非 空 )， 那 么 
插口 必须 是 无 连接 的 ， 否 则 返回 EISCONN 错 误 。 通 过 unp_connect 连 接 无 连接 的 插口 。 暂 
时 连接 一 个 无 连接 的 数据 报 插 口 的 代码 与 卷 2 图 23-15 的 UDP 代 码 相 似 。 
154-159 如果 进程 没有 传递 一 个 目的 地 址 ， 那 么 对 于 一 个 无 连接 的 插口 就 返回 ENOTCONN 
错误 。 

3. 传递 发 送 者 的 地 址 
160-164 so2 指 向 目的 插口 的 socket 结 构 。 如 果 发 送 插口 (unp) 已 经 绑 定 了 一 个 路 径 名 ， 
from 就 指向 包含 路 径 名 的 sockaddr _ un 结构 ; 否则 ，from 指 向 sun_noname,， 
sun_noname 是 一 个 以 空 字 节 作为 路 径 名 首 字符 的 sockaddr_un 结 构 。 

如 果 一 个 Unix 域 数据 报 的 发 送 者 没有 绑 定 一 个 路 径 名 到 它 的 插口 ， 数 据 报 的 接 

收 者 由 于 没有 目的 地 址 (例如 ， 路 径 名 ) 而 不 能 用 sendto 发 送 应 答 。 这 就 与 UDP 不 同 ， 

当 数 据 报 第 一 次 到 达 一 个 未 绑 定 的 数据 报 插口 时 ， 协 议 就 会 自动 为 其 分 配 一 个 临时 

的 闹 口 号 。UDP 能 为 应 用 程序 自动 选择 端口 号 的 一 个 原因 是 这 些 端口 号 仅 由 UDP 使 

用 。 然 而 ， 文 件 系统 中 的 路 径 名 并 不 是 仅 为 Unix 域 插口 保留 。 因 而 为 一 个 没有 绑 定 

的 Unix 域 插口 自动 选择 路 径 名 可 能 会 在 后 面 产 生 冲 突 。 

是 否 需要 一 个 应 答 取 决 于 应 用 程序 。 例 如 ，sys1og 函 数 没有 绑 定 一 个 路 径 名 
到 它 的 Unix 域 数据 报 插口 ， 它 仅 发 送 报 文 到 本 地 syslogd 人 守护 进程 而 不 想得到 一 
^R E. 


4. 把 控制 、 地 址 和 数据 mbuf 添 加 到 插口 接收 队列 
165-170 sbappendaddr 将 控制 信息 (如 果 需 要 )、 发 送 者 地 址 和 数据 添加 到 接收 插口 的 接 
收 队列 。 如 果 函 数 调用 成 功 ，sorwakeup 就 要 唤醒 所 有 等 待 这 些 数据 的 接收 者 ， 为 了 防止 
mbuf 指 针 m 和 control 在 函数 结束 时 被 释放 ， 将 它们 全 置 为 0( 图 17-10)。 如 果 出 现 错误 (可 能 
因为 在 接收 队列 上 没有 足够 空间 来 存放 数据 、 地 址 和 控制 信息 )， 就 返回 ENOBUFS。 


处 理 这 种 错误 与 UDP 不 同 。 如 果 在 接收 队列 上 没有 足够 的 空间 ， 使 用 Unix 域 数 
据 报 插口 的 sendqet 就 会 收 到 从 它 的 输出 操作 返回 的 错误 。 同 UDP 一 样 ， 如 果 在 接口 
输出 队列 上 有 足够 的 空间 ， 那 么 发 送 者 的 输出 操作 就 会 成 功 。 如 果 接 收 UDP 发 现在 
接收 插口 的 接收 队列 上 没有 空间 ， 它 通常 发 送 一 个 ICMP 端 口 不 可 达 的 错误 给 发 送 者 ， 
但 是 如 果 发 送 者 没有 连接 到 接收 者 ， 它 也 就 不 可 能 收 到 这 个 错误 (如 同 卷 2 第 600~601 
页 描述 的 一 样 )。 为 什么 当 接 收 者 的 缓存 满 时 Unix 域 发 送 者 不 阻塞 ,而 是 收 到 
ENOBUFS 错 误 ? 传统 上 ， 数 据 报 不 保证 可 靠 的 数据 传输 。[Rago 1993] 认 为 ， 在 
SVR4 下 编译 内 核 时 ， 是 否 给 Unix 域 数据 报 插 口 提供 流量 控制 是 由 厂家 来 决定 的 。 
5. 暂时 断 开 与 相连 插口 的 连接 

171-172 unp_disconnect 断 开 暂 时 连接 的 插口 。 
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图 18-2 给 出 了 对 于 流 插 口 的 PRU_SEND 请 求 的 处 理 。 
uipc usrreq.c 
175 case SOCK STREAM: 
176 #define rcv (&so2-»so rcv) 
177 *define snd (&so-»so snd) 


178 if (so-»so state & SS CANTSENDMORE) ( 

179 error - EPIPE; 

180 break; 

181 } 

182 if (unp->unp_conn == 0) 

183 panic("uipc 3"); 

184 So2 = unp-»unp conn-»unp socket; 

185 JZ 

186 * Send to paired receive port, and then reduce 
187 * send buffer hiwater marks to maintain backpressure. 
188 * Wake up readers. 

189 */ 

190 if (control) ( 

191 if (sbappendcontrol(rcv, m, control)) 

192 control - 0; 

193 ) else 

194 sbappend(rcv, m); 

195 snd-»sb mbmax -= 

196 rcv-»sb mbcnt - unp-»unp conn-»unp mbcnt; 
197 unp-»-unp conn-»unp mbcnt = rcv-»sb mbcnt; 

198 snd-»sb hiwat -= rcv-»sb cc - unp-»unp conn-»unp cc; 
199 unp-»unp conn-»unp cc = rcv-»sb cc; 

200 sorwakeup(so2); 

201 m - 0; 


202 #undef snd 
203 #undef rev 


204 break; 
205 default: 
206 panic("uipc 4"); 
207 ) 
208 break; a 
uipc usrreq.c 
图 18-2 流 插口 的 PRU_SEND 请 求 . 
6. 验证 插口 状态 


175-183 如 果 插 口 的 发 送 方 已 经 关闭 ， 就 返回 EPIPE。 因 为 sosend 验 证 需要 一 个 连接 的 
插口 是 否 已 建立 连接 ， 所 以 这 个 插口 必须 已 建 连 ， 否 则 调用 panic( 卷 2 图 16-24)。 
第 一 次 测试 好 像 是 一 个 早期 版 本 中 遗留 下 来 的 ，Ssosend 已 经 做 了 这 个 测试 ( 卷 2 图 
16-24), 


7. 把 mbuf 添 加 到 接收 缓存 
184-194 so2 指 向 接收 插口 的 socket 结 构 。 如 果 进 程 使 用 sendmsg 传 送 了 控制 信息 ， 那 么 
控制 mbuf 和 任何 数据 mbuf 都 要 通过 sbappendcontrol 添 加 到 接收 插口 的 接收 缓存 。 否 则 ， 
sbappend 将 数据 mbuf 添 加 到 接收 缓存 。 如 果 sbappendcontrol 失 败 ， 为 了 防止 在 函数 结尾 
调用 m_freem， 将 control 指 针 设 置 为 0( 图 17-10)， 因 为 sbappendcontrol 已 经 释放 了 mbuf。 
8. 更 新 发 送 者 和 接收 者 的 计数 器 ( 端 到 端的 流量 控制 ) 
195-199 对 于 发 送 者 要 更 新 两 个 变量 :sb_mbmax( 缓 存 中 所 有 mbuf 人 允许 的 最 大 字 节 数 ) 和 
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sb_hiwat( 缓 存 中 允许 存放 实际 数据 的 最 大 字 节 数 )， 在 卷 2 的 图 16-24 中 我 们 注意 到 ， 对 mbuf 
所 做 的 限制 防止 了 大 量 小报 文 消耗 太 多 的 mbuf。 

对 于 Unix 域 流 插口 ， 这 两 个 限制 指 的 是 接收 缓存 和 发 送 缓存 中 的 两 个 计数 器 的 和 。 例 如 ， 
一 个 Unix 域 流 插口 的 发 送 缓存 和 接收 缓存 的 sb_hiwat 初 始 值 都 是 4096( 图 17-2)。 如 果 发 送 者 
把 1024 字 节 写 到 插口 上 ， 不 仅 接收 者 的 sb_cc( 插 口 缓存 中 的 当前 字 节 数 ) 从 0 增长 到 1024( 正 如 
我 们 所 希望 的 )， 而 且 发 送 者 的 sb_hiwat 从 4096 减 到 3072( 这 是 我 们 所 不 希望 的 )。 对 于 其 他 
协议 如 TCP， 如 果 没 有 显 式 设置 插口 的 选项 ， 缓 存 的 sb_hiwat 值 决 不 会 变化 。sb_mbmax 也 
- 是 一 样 : 当 接 收 者 的 sb_mbcnt 值 增加 时 ， 发 送 者 的 sb_mbmax 值 下 降 。 

因为 发 送 给 Unix 域 流 插口 的 数据 从 来 不 会 放 在 发 送 插 口 的 发 送 缓存 中 ， 所 以 要 改变 发 送 
者 的 缓存 限制 和 接收 者 的 当前 计数 。 数 据 被 立即 加 到 接收 插口 的 接收 缓存 中 ， 没 有 必要 浪费 
时 间 把 数据 放 到 发 送 插口 的 发 送 队 列 上 ， 然 后 立即 或 晚 些 时 候 把 它 发 送 到 接收 队列 上 。 如 果 
接收 缓存 中 没有 空 闪 空间 ， 发 送 者 就 要 被 阻塞 。 但是， 如 果 sosend 阻 塞 发 送 者 ， 发 送 缓 存 中 
的 空间 大 小 必须 反映 相应 接收 缓存 中 的 空间 大 小 。 代 赫 修 改 发 送 缓存 数 ， 当 发 送 缓存 中 没有 
数据 时 ， 很 容易 修改 发 送 缓存 限制 来 反映 相应 接收 缓存 中 的 空间 大 小 。 
198-199 如 果 我 们 只 是 检验 发 送 者 的 sb_hiwat 和 接收 者 的 unp_cc 的 操作 (sb_mbmax 和 
unp_mbcnt 的 操作 也 基本 相同 )， 在 这 一 点 上 由 于 数据 刚 被 添加 到 接收 缓存 ， 所 以 rcv- > 
sb_cc 就 等 于 接收 缓存 中 的 字 节 数 。unp->unp_conn->unp_cc 是 rcv->sb_cc 的 前 一 个 
值 ， 所 以 它们 之 间 的 差 值 就 是 刚刚 添加 到 接收 缓存 的 字 节 数 (也 就 是 写 的 字 节 数 )。 同 时 ， 将 
snd->sb_hiwat 的 值 减 去 相同 的 字 节 数 ( 刚 写 的 字 节 数 )。 接 收 缓存 中 的 当前 字 节 数 保存 在 
unp->unp_conn->unp_cc 中 ， 所 以 下 一 次 通过 这 段 代码 我 们 能 计算 出 写 了 多 少数 据 。 

例如 ， 当 创建 插口 时 ， 发 送 者 的 sb_hiwat 是 4096， 接 收 者 的 sb_cc 和 unpP_cc 都 为 0。 
如 果 写 了 1024 字 节 ， 那 么 发 送 者 的 sb_hiwat 变 为 3072， 接 收 者 的 sb_cc 和 unp_cc 都 是 
1024。 在 图 18-3 中 我 们 还 将 看 到 ， 当 接收 进程 读 这 1024 字 节 时 ， 发 送 者 的 sb_hiwat 增 加 到 
4096， 而 接收 者 的 sb_cc 和 unp_cc 都 降 为 0。 

9. 唤醒 等 待 数据 的 所 有 进程 
200-201 sorwakeup 唤 醒 等 待 数据 的 任何 进程 ， 由 于 mbuf 现 在 在 接收 队列 上 ， 所 以 为 了 
防止 在 函数 结尾 调用 m_freem， 将 mm 设置 为 0。 

图 18-3 中 WO 代码 的 最 后 部 分 是 PRU_RCVD 请 求 ， 当 从 一 个 插口 读数 据 并 且 协 议 设 置 
PR _WANTRCVD 标 志 时 ，soreceive 发 出 这 个 请 求 ( 卷 2 图 16-51)， 图 17-5 中 对 Unix 域 流 协 议 设置 
这 个 标志 。 这 个 请 求 的 目的 是 当 插 口 层 把 数据 从 一 个 插口 的 接收 缓存 中 移 走 时 让 协议 层 获 得 控 
制 。 例 如 ， 由 于 插口 接收 缓存 中 现在 有 更 多 的 自由 空间 ，TCP 使 用 这 个 请 求 来 判断 是 否 应 该 将 
新 的 窗口 宽度 发 送 到 对 端 ，Unix 域 流 协 议 使 用 这 个 请 求 去 更 新 发 送 者 和 接收 者 的 缓存 计数 器 。 

10. 检查 对 等 实体 是 否 终止 
121-122 ”如果 写 数据 的 对 等 实体 已 经 结束 ， 不 需 做 任何 工作 。 注 意 ， 接 收 者 的 数据 并 不 丢 
F, 然而， 由 于 发 送 进程 关闭 了 它 的 插口 ， 所 以 发 送 者 的 缓存 计数 器 就 不 能 更 新 。 由 于 发 送 
者 不 再 往 插口 写 任 何 数据 ， 所 以 没有 必要 更 新 缓存 计数 器 。 

11. 更 新 缓存 计数 器 
123-131 so2 指 向 发 送 者 socket 结 构 。 根 据 读 到 的 数据 来 更 新 发 送 者 的 sb_mbmax 和 
sb hiwat。 例 如 ，unp->unpP_cc 减 去 fcv->sb_cc 就 是 所 读 到 的 数据 字 节 数 。 
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uipc usrreq.c 


113 case PRU RCVD: 

114 switch (so-»so type) ( 
115 case SOCK DGRAM: 

116 panic("uipc 1"); 
1217 /* NOTREACHED */ 
118 case SOCK STREAM: 


119 &define rcv (&so-»so rcv) 
120 #define snd (&so2-»so snd) 


121 if (unp-»unp. conn == 0) 

122 break; 

123 so2 = unp-»unp conn-»unp. socket; 

124 7* 

125 * Adjust backpressure on sender 

126 * and wake up any waiting to write. 

127 i d 

128 snd-»sb mbmax += unp-»unp mbcnt - rcv-»sb mbcnt; 
129 unp-»unp mbcnt = rcv-»sb mbcnt; 

130 snd-»sb hiwat += unp-»unp cc - rcv-»sb cc; 
131 unp-»unp cc = rcv-»sb cc; 

132 sowwakeup(so2) ; 


133 #undef snd 
134 #undef rcv 


135 break; 
136 default: 
137 panic("uipce 2"); 
138 ) 
139 break; à 
uipc usrreq.c 
图 18-3 PRU _RCVD 请 求 
12. 唤醒 任何 发 送 数据 进程 


132 当 从 接收 队列 读数 据 时 ， 增 加 发 送 者 的 sb_hiwat。 由 于 可 能 有 空间 ， 所 以 任何 等 待 往 
插口 写 数 据 的 进程 都 被 唤醒 。 


18.3 描述 符 的 传递 


描述 符 的 传递 对 于 进程 间 通信 来 说 是 一 项 重大 的 技术 。[Stevens 1992] 的 第 15 章 在 4.4BSD 
和 SVR4 下 有 使 用 这 种 技术 的 例子 。 虽 然 在 这 两 种 实现 中 的 系统 调用 不 同 ， 但 是 那些 例子 提供 
了 对 应 用 程序 屏蔽 实现 差异 的 库 函 数 。 

历史 上 描述 符 传递 一 直 被 称 为 访问 权 (access right)。 描 述 符 代表 一 种 对 底层 对 象 执行 
1/O 的 权力 (如 果 我 们 没有 这 个 权力 ， 内 核 就 不 会 为 我 们 打开 描述 符 )。 但 是 这 个 能 力 仅 在 
打开 描述 符 的 进程 环境 中 才 有 意义 。 例 如 ， 将 描述 符号 ， 假 定 等 于 4， 从 一 个 进程 传 到 另 
一 个 进程 ， 但 并 不 传递 这 些 权力 ， 因 为 在 接收 进程 中 描述 符 4 也 许 并 没有 打开 ， 并 且 即 
使 已 经 打开 了 ， 它 代表 的 文件 也 可 能 与 发 送 进程 中 所 代表 的 文件 不 相同 。 描 述 符 只 是 一 
个 在 给 定 进 程 中 才 有 意义 的 标识 符 。 一 个 描述 符 以 及 与 其 相 联系 的 权力 从 一 个 进程 传送 
到 另 一 个 进程 需要 从 内 核 得 到 额外 的 支持 。 唯 一 能 从 一 个 进程 传 到 另 一 个 进程 的 访问 权 
就 是 描述 符 。 

图 18-4 显 示 了 涉及 将 描述 符 从 一 个 进程 传 到 另 一 个 进程 的 数据 结构 。 传 送 过 程 如 下 : 
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proc() file() Socket() unpcb() 













file() 





两 个 Unix 域 插口 之 间 的 连接 
通过 这 个 连接 传送 描述 符 





file() 








Unix 


域 流 插口 








图 18-4 在 描述 符 传递 中 涉及 的 数据 结构 


1) 我 们 假定 最 上 面 进 程 是 一 个 从 Unix 域 流 插口 上 接受 连接 的 服务 器 进程 。 客 户 进程 是 最 
下 面 的 进程 ， 它 创建 一 个 Unix 域 流 插 口 并 与 服务 器 进程 的 插口 建 连 。 客 户 进程 用 fdm 引 
用 它 的 插口 ， 而 服务 器 进程 用 fdi 来 引用 它 的 插口 。 在 这 个 例子 中 我 们 用 的 是 流 插口 ， 
但 是 我 们 还 将 看 到 描述 符 传递 也 能 在 Unix 域 数据 报 插口 间 进行 。 我 们 也 假定 17.10 节 中 
accept 返 回 的 fdi 作 为 服务 器 进程 的 连接 插口 ， 为 了 简单 起 见 ， 我 们 不 显示 服务 器 进 
程 监听 插口 的 结构 。 

2) 服务 器 进程 还 打开 另 一 个 文件 ， 并 用 /来 访问 它 。 通 过 描述 符 访 问 的 文件 可 能 是 任何 
类 型 的 文件 : 文件 、 设 备 、 插 口 ， 等 等 ， 我 们 用 vnode 来 表示 这 类 文件 。 文 件 的 访问 
计数 ， 也 就 是 它 的 file 结构 的 E_count 字 段 ， 在 文件 第 一 次 打开 时 等 于 1。 

3) 服务 器 在 fdi 上 调用 sendmsg 发 送 包含 一 个 类 型 值 SCM_RIGHTS 和 fdj 值 的 控制 信息 。 从 
而 将 描述 符 传送 给 接收 者 ， 即 客户 进程 中 的 fdm。 将 与 fd 相 联 系 的 file 结 构 中 的 引用 
数 增加 到 2。 

4) 客户 进程 在 fdm 上 调用 带 有 控制 信息 缓存 的 recvmsg， 返 回 的 控制 信息 有 一 个 类 型 值 
SCM_RIGHTS 和 fdn 值 ， 在 客户 进程 中 fdn 是 最 低 的 、 尚 未 使 用 的 描述 符 。 

5) 在 服务 器 进程 中 ， 当 sendmsg 返 回 后 ， 服 务 器 通常 会 关闭 刚才 传送 的 描述 符 Y4j)。 这 会 
导致 引用 计数 减 到 1。 我 们 说 在 sendmsg 和 recvmsg 之 间 描 述 符 在 “传送 中 ”(in flight), 

三 个 计数 器 由 内 核 负责 维护 ， 描 述 符 传递 中 要 用 到 它们 。 
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1) £_count 是 file 结 构 的 一 个 字段 ， 用 来 记录 该 结构 的 引用 次 数 。 当 多 个 描述 符 共享 
相同 的 Eile 结 构 时 ， 这 个 字段 等 于 描述 符 数 。 例 如 当 一 个 进程 打开 一 个 文件 时 ， 该 文 
件 的 E_count 为 1。 如 果 进 程 接着 调用 fozk， 由 于 file 结 构 在 父 进程 和 子 进程 间 共 
享 ， 所 以 上 _count 的 值 变 为 2， 并 且 父 进程 和 子 进程 都 有 一 个 描述 符 指向 相同 的 文件 
结构 。 当 一 个 描述 符 被 关闭 时 ，E_count 值 以 1 递减 ， 如 果 值 减 到 0， 相 应 的 文件 或 插 
口 被 关闭 ， 并 且 £ile 结 构 能 重新 使 用 。 

2)£_msgcount 也 是 file 结 构 的 一 个 字段 ,但 是 它 仅 在 传送 描述 符 时 等 于 非 0。 当 描述 
符 由 sendmsg 传 送 时 ,ff_msgcount 以 1 递增 。 当 recvmsg 接 收 到 描述 符 时 ， 
f _msgcount 以 1 递减 。f_msgcount 值 是 这 个 file 结 构 的 引用 数 ，file 结 构 由 插 
口 接收 队列 中 的 描述 符 保持 着 ( 即 目前 是 在 传送 中 )。 

3) unp_rights 是 一 个 全 局 变量 ， 用 来 记录 当前 正 被 传送 的 描述 符 个 数 ， 也 就 是 当前 插 
口 接收 队列 中 的 描述 符 总 数 。 

对 于 一 个 已 打开 , 但 还 没有 被 传送 的 描述 符 ，£_count 的 值 大 于 0, £_msgcount 的 值 等 于 0。 

图 18-5 显 示 了 当 一 个 描述 符 传送 时 三 个 变量 的 值 ， 我 们 假定 当前 内 核 没有 传送 其 他 的 描述 符 。 





发 送 方 执行 open 后 

发 送 方 执行 sendmsg 后 
在 接收 方 的 队列 上 

接收 方 执行 ecvmsg 后 
发 送 方 执行 close 后 


图 18-5 描述 符 传送 过 程 中 内 核 变量 的 值 


在 这 个 图 中 我 们 假定 ， 接 收 者 的 zecvmsg 返 回 后 发 送 者 关闭 描述 符 。 但 是 在 接收 者 调用 
recvmsg 之 前 ， 人 允许 发 送 者 在 描述 符 传递 过 程 中 关闭 它 ， 图 18-6 表 示 了 这 种 情况 发 生 时 三 个 





变量 的 值 。 


发 送 方 执行 open 后 

发 送 方 执行 Sendmsg 后 
在 接收 方 的 队列 上 
发 送 方 执行 close 后 
在 接收 方 的 队列 上 

接收 方 执行 Tecvmsg 后 


图 18-6 描述 符 传送 过 程 中 内 核 变量 的 值 


无 论 发 送 者 在 接收 者 调用 recvmsg 之 前 或 之 后 关闭 描述 符 ， 最 终结 果 都 是 一 样 的 。 我 们 
从 上 面 两 个 图 中 也 能 看 到 ，sendmsg 增 加 所 有 的 三 个 计数 器 ， 而 recvmsg 只 减少 表 中 的 最 后 
两 个 计数 器 。 

用 来 传送 描述 符 的 内 核 代 码 从 概念 上 看 是 比较 简单 的 。 将 传送 的 描述 符 转换 成 相应 的 
file 指 针 并 传送 到 Unix 域 插口 的 另 一 端 。 在 接收 进程 中 ， 接 收 者 把 Eile 指针 转换 为 最 低 的 、 
没有 使 用 的 描述 符 。 然 而 在 处 理 可 能 的 错误 时 就 有 问题 了， 例如， 当 一 个 描述 符 在 它 的 接收 
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队列 上 时 ， 接 收 进程 就 能 关闭 它 的 Unix 域 插口 。 

将 一 个 描述 符 转 换 成 相应 的 Eile 指 针 叫 作 内 部 化 (internalizing)， 在 接收 进程 中 ， 随 后 的 
file 指 针 转 换 成 最 低 的 。 没 有 使 用 的 描述 符 叫 作 外 部 化 (externalizing)。 如 果 进 程 传送 控制 信 
息 ， 图 18-1 中 的 PRU_SEND 请 求 将 调用 unp_internalize 函 数 。 如 果 进 程 正在 读 
MT_CONTROL 类 型 的 一 个 mbuf，soreceive 就 调用 unp _ externalize 函 数 ( 卷 2 图 16-44)。 

图 18-7 显 示 了 被 进程 传送 到 sendmsg 的 控制 信息 的 定义 ， 这 里 控制 信息 用 于 传送 描述 符 。 
当 接 收 到 一 个 描述 符 时 ，zecvmsg 填 充 相 同类 型 的 一 个 结构 。 


socket.h 
251 struct cmsghdr ( 
252 u int cmsg len; /* data byte count, including hdr */ 
s 253 int cmsg. level; /* originating protocol */ 
254 int cmsg type; /* protocol-specific type */ 
255 /* followed by u_char cmsg data([]; */ 
256 ); 
socket.h 


图 18-7 cmsghdr 结 构 


例如 ， 如 果 进 程 发 送 两 个 描述 符 ， 它 们 的 值 分 别 是 3 和 7， 图 18-8 给 出 了 控制 信息 的 格式 。 
我 们 还 给 出 了 msghar 结 构 中 描述 控制 信息 的 两 个 字段。 


msghdr{}) cmsghdr() 
cmsg len 


图 18-8 传送 两 个 描述 符 的 控制 信息 的 例子 


通常 一 个 进程 使 用 一 个 sendmsg 能 发 送 任意 个 描述 符 ， 但 是 传送 描述 符 的 应 用 程序 典型 
情况 下 只 传送 一 个 描述 符 。 有 一 个 内 部 约束 限制 着 控制 信息 总 的 大 小 必须 适合 一 个 mbuf( 由 
sockazrgs 国 数 强加 的 ， 这 个 sockargs 国 数 又 是 被 sendit 国 数 调 用 的 ， 分 别 见 卷 2 图 15-20 
和 图 16-21)， 这 样 就 限制 了 任何 进程 最 多 只 能 传送 24 个 描述 符 。 
在 4.3BSD Reno 之 前 ，msghdr 结 构 的 msg_control 和 msg_controllen 字 段 
分 别 为 msg_accrights 和 msg accrightslen, 
明显 宛 余 的 cmsg_len 字 段 总 是 等 于 sg controllen, 这 其 中 的 原因 是 允许 
多 条 控制 信息 出 现在 同一 个 控制 缓存 中 ， 但 是 我 们 将 看 到 源 代 码 不 支持 这 种 情况 ， 
而 是 要 求 每 个 控制 缓存 仅 有 一 个 控制 报 文 。 
对 于 一 个 UDP 数据 报 ，Internet 域 中 支持 的 唯一 控制 信息 是 返回 目的 IP 地 址 ( 卷 2 
图 23-25)。 对 于 各 种 特定 OSI 用 途 的 OSI 协议 支持 四 种 不 同类 型 的 控制 信息 。 
图 18-9 总 结 了 在 发 送 和 接收 描述 符 过 程 中 调用 的 函数 ， 带 阴影 的 函数 在 本 卷 中 讲述 ， 
图 18-10 总 结 了 人 unp_internalize 和 unp _ externalize 对 用 户 控 制 缓存 和 内 核 mbuf 
中 的 描述 符 和 £ile 指 针 的 各 种 操作 。 
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将 控制 信 
息 复 制 到 
mbuf 中 
inr ternaliz« 将 数据 和 控制 
E s mbuf 添 加 到 接 
政 插口 的 接收 
file 指 针 | sies 
发 送 进程 1 
p----Y*----4 
€ t A E ! ”接收 插口 的 | 
| 。 接收 缓存 
接收 进程 T 
I 
将 Eile 指 针 转 
dom externalize 换 为 描述 符 
ee 
从 mbuf 中 复制 控 
制 信息 


ea 


图 18-9 在 传送 描述 符 过 程 中 涉及 的 函数 


18.4 unp_internalizeM ži 


图 18-11 描 述 了 unp_internalize 函 数 。 正 如 我 们 在 图 18-1 中 看 到 的 一 样 ， 当 发 出 
PRU_SEND 请 求 并 且 进 程 正 传 送 描述 符 时 ，uipc_usrreq 调 用 这 个 函数 。 

1. 验证 cmsghdr 字 有 段 
564-566 用 户 的 cmsghdr 结 构 必须 指定 类 型 SCM_RIGHTS 和 级 别 SOL SOCKET, 并且 它 的 
长 度 字段 必须 等 于 mbuf 中 的 数据 量 ( 这 是 msghdr 结 构 中 msg_controllen 字 有 段 的 一 个 副本 ， 
msghdr 结 构 由 进程 传送 到 sendmag)。 


党 18 童 Unix 域 放 改 : I/Ojfodid E Mb 6$ 19 3 219 


JH P'emsghdr() 内 核 的 mbuf{} 


包含 描述 符 的 控 | 名 mbuf 首 部 
制 信息 - (MT CONTROL) 


unp_internalize 将 











发 送 进程 来 的 描述 符 替 
换 成 相应 的 file 指 针 
ius sbappendcontrolj4 
T 数据 和 控制 mbuf 添 加 到 
- ER 接收 插口 的 接收 缓存 
接收 进程 内 核 的 mbuf{} 
mbuf 首 部 
(MT CONTROL) 
unp externalizeJfH 
用 户 ) 接收 进程 新 分 配 的 描述 
cmsghdr ( ) que Tr Eilefetl 







包含 描述 符 的 控 
制 信息 







图 18-10 由 unp_internalize 和 unp_externalize 执 行 的 操作 


2. 验证 传送 描述 符 的 有 效 性 
567-574 oldfds 设 置 为 被 传送 的 描述 符 数 ，rp 指 向 第 一 个 描述 符 。 对 于 每 一 个 被 传送 的 
描述 符 ，for 循 环 验 证 这 个 描述 符 不 会 比 当 前 被 进程 使 用 的 最 大 描述 符 还 大 ， 以 及 指针 非 空 
( 即 描述 符 已 打开 )。 

3. 用 file 指 针 替 换 描述 符 
575-578 将 rp 重新 设置 为 指向 第 一 个 描述 符 ，f£or 循 环 用 引用 的 file 指 针 fp 替 换 每 一 个 
描述 符 。 

4. 增加 三 个 计数 器 
579-581 file 结 构 的 f_count 和 f_msgcount 元 素 递 增 ， 前 者 在 每 一 次 描述 符 关 闭 时 递 
减 ， 而 后 者 由 unp_externalize 递 减 。 男 外 ， 对 于 每 一 个 由 unp_internalize 传 送 的 描 
述 符 来 说 ， 全 局 变量 unp_rights 递 增 ,。 我 们 将 看 到 ， 对 于 每 一 个 由 unp_externalize 接 
受 的 描述 符 ，unp_rights 将 递减 。 任 何 时 候 它 的 值 都 是 当前 内 核 中 正在 传送 的 描述 符 数 。 
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uipc usrreq.c 
553 int Pes 7 


554 unp internalize(control, p) 
555 struct mbuf *control; 
556 struct proc *p; 


557 ( 

558 struct filedesc *fdp = p-»p fd; 

559 struct cmsghdr *cm - mtod(control, struct cmsghdr *); 
560 struct file **rp; 

561 struct file *fp; 

562 int i, fdi 

563 int oldfds; 

564 if (cm-»cmsg type !- SCM RIGHTS || cm-»cmsg level !- SOL SOCKET || 
565 cm-»cmsg len !- control-»m len) 

566 return (EINVAL); 

567 oldfds - (cm-»cmsg len - sizeof(*cm)) / sizeof(int); 
568 rp - (struct file **) (cm * 1); 

569 for (i = 0; i < oldfds; i++) ( 

570 fd = *(int *) rp**; 

571 if ((unsigned) fd >= fdp-»fd nfiles || 

572 fdp-»fd ofiles[fd] == NULL) 

573 return (EBADF); 

574 } 

575 fp s (strict file **) (cm + 1); 

576 for (i = 0; i < oldfds; i++) ( 

577 fp = fdp-»fd ofiles[*(int *) rp]; 

578 *rp** = fp; 

579 fp-»f count**; 

580 fp-»f msgcount-4-*; 

581 unp. rights-**; 

582 ) 

583 return (0); 

584 ) 


uipc usrreq.c 


图 18-11 unp internalizetKZ& 


我 们 在 图 17-14 中 看 到 ， 当 任何 Unix 域 播 口 关 闭 ， 并 且 计 数 器 非 0 时 ， 调 用 无 用 单元 收集 函数 
unp_gc， 以 免 关 闭 的 插口 在 它 的 接收 队列 上 包含 任何 正在 传送 的 描述 符 。 


18.5 unp externalizeijfjZi 


图 18-12 表 示 了 unp_externalize 国 数 ， 当 一 个 类 型 为 MT_CONTROoL 的 mbuf 在 揪 口 的 
接收 队列 上 ， 并 且 进 程 正 准备 接收 控制 信息 时 ，soreceive 像 调用 aom_externalize 国 数 
一 样 调用 unp_externalize( 卷 2 图 16-44)。 

1. 验证 接收 进程 是 否 有 足够 的 可 用 描述 符 
532-541 newfds 是 外 部 化 的 mbuf 中 file 指 针 的 数目 。fdavail 是 检验 进程 是 否 有 足够 可 
用 描述 符 的 一 个 内 核 函 数 。 如 果 没 有 足够 的 可 用 描述 符 ， 那么 对 于 每 一 个 描述 符 调用 
unp_discard( 在 下 一 节 描 述 )， 并 且 返 回 EMSGSIZE 给 进程 。 

2. 把 file 指 针 转 换 成 描述 符 
542-546 对 于 进程 中 每 一 个 传送 的 file 指 针 ， 最 小 的 没有 使 用 的 描述 符 由 fdalloc 来 分 
配 。fdalloc 的 第 二 个 参数 0 告诉 它 不 需要 分 配 一 个 file 结构 ， 因 为 此 时 需要 的 只 是 一 个 描 
述 符 。fdalloc 通 过 f 返 回 描述 符 。 进 程 中 的 描述 符 指向 file 指 针 。 
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3. 递减 两 个 计数 器 

547-548 对 于 每 一 个 传送 的 描述 符 ， 两 个 计数 器 f_msgcount 和 unp_rights 都 要 递减 。 
4. 用 描述 符 替 换 file 指 针 

549 新 分 配 的 描述 符 替 换 mbuf 中 的 Eile 指 针 ， 这 是 作为 控制 信息 返回 到 进程 中 的 值 。 

如 果 由 进程 传送 到 recvmsg 的 控制 缕 存 不 够 ， 接 收 传送 的 描述 符 怎么 办 ? 

unp_externalize 仍 然 分 配 进程 中 需要 的 描述 符 数 ， 描 述 符 全 部 指向 正确 的 file 结 
构 ， 但 是 zecVit( 卷 2 的 图 16-44) 仅 仅 返 回 与 进程 分 配 的 给 存 相 适 应 的 控制 信息 。 如 
果 导 致 控制 信息 的 不 完整 截断 ， 那 么 就 要 置 上 msg_flags 字 段 中 的 MSG_CTRUNC 标 
志 ， 进 程 通过 测试 这 个 标志 来 判断 recvmsg 返 回 的 控制 信息 的 完整 性 。 
CT uipc usrreq.c 


524 unp externalize(rights) 
525 struct mbuf *rights; ' 


526 ( 

527 struct proc *p - curproc; /* XXX */ 

528 int uü; 

529 struct cmsghdr *cm = mtod(rights, struct cmsghdr *); 
530 struct file **rp = (struct file **) (cm + 1); 
531 struct file *fp; 

532 int newfds - (cm-»cmsg len - sizeof(*cm)) / sizeof(int); 
533 int £; 

534 if (!fdavail(p, newfds)) ( 

535 for (i = 0; i < newfds; i++) ( 

536 fp - *rp; 

537 unp discard(fp); 

538 *rpt* = 0; 

539 } 

540 return (EMSGSIZE); 

541 } f 

542 for (i = 0; i < newfds; i++) ( 

543 if (fdalloc(p, 0, &f)) 

544 panic("unp externalize"); 

545 fp = *rp; 

546 p-»p fd-»fd ofiles[f] = fp; 

547 fp-»f msgcount--; 

548 unp. rights--; 

549 *(int *) rpt* = f; 

550 ) 

551 return (0); 

552 ) 


uipc usrreq.c 


图 18-12 unp externalizei&//A 


18.6 unp discard Z 


当 判 断 出 接收 进程 没有 足够 的 可 用 描述 符 时 ， 在 图 18-12 中 对 于 每 一 个 传送 的 描述 符 调用 
图 18-13 中 的 unp_discard。 

1. 递减 两 个 计数 器 
730-731 f_msgcount 和 unp_rights 两 个 计数 器 全 都 递减 。 
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Uipc_usrreq.c 
726 void P 1 


727 unp. discard(fp) 
728 struct file *fp; 


729 ( 

730 fp-»f msgcount--; 

731 unp rights--; 

732 (void) closef(fp, (struct proc *) NULL); 
733 ) 


uipc usrreq.c 
图 18-13 unp_dqiscard 国 数 


2. 调用 closef 
732 closef 关 闭 fEile， 如 果 f£_count 现 在 是 0，closef 就 减 小 E_count， 并 且 调 用 描述 
符 的 Efe_close 国 数 ( 卷 2 的 图 15-38)。 


18.7 unp dispose Zi 


回想 图 17-14 中 ， 如 果 全 局 变量 unp_rights 非 0( 即 有 描述 符 在 传送 中 )， 那 么 当 关 闭 一 个 
Unix 域 插口 时 ，unp_detach 函 数 就 要 调用 sorflush。 如 果 有 定义 ， 并且 协议 设置 了 
PR_RIGHTS 标 志 ，sorflush( 卷 2 图 15-37) 执 行 的 最 后 操作 之 一 就 是 调用 域 的 
daom_dqispose 国 数 。 因 为 将 要 刷新 (释放 ) 的 mbuf 也 许 包 含 正 在 传送 中 的 描述 符 ， 所 以 需要 执 
行 这 个 调用 。 由 于 file 结 构 中 的 两 个 计数 器 f_count 和 f_msgcount 以 及 全 局 变量 
unp_rights 都 要 由 unp_internalize 来 递增 ,， 对 于 已 传送 但 没有 被 接收 的 描述 符 ， 这 些 
计数 器 全 都 必须 要 调整 。 

Unix 域 的 dom_dqispose 畏 数 就 是 unp_daispose( 图 17-4)， 如 图 18-14 所 示 。 


uipc usrreq.c 
682 void P ý 


683 unp dispose (m) 
684 struct mbuf *m; 


685 ( 

686 if (m) 

687 unp scan(m, unp discard); 
688 } 


uipc usrreq.c 
图 18-14 unp dispose f% 


调用 unp_scan 
686-687 unp_scan 完 成 的 所 有 工作 我 们 在 下 一 节 描 述 。 该 调用 的 第 二 个 参数 是 指向 函数 
unp_discard 的 一 个 指针 ， 正 如 我 们 在 上 一 节 看 到 的 一 样 ，unp_discard 删 除 在 插口 接收 
队列 上 unp_scan 发 现 的 控制 缓存 中 的 任何 描述 符 。 


18.8 unp scan ži 


从 unp_dispose 调 用 unp_scan 了 函数， 其 第 二 个 参数 为 unp_discard， 并 且 这 个 函数 
在 后 面 的 unp_gc 中 也 会 被 调用 ， 其 第 二 个 参数 为 unp_mark。 我 们 在 图 18-15 中 给 出 了 


unp scan, 
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uipc usrreg.c 
689 void P 1 


690 unp scan(m0, op) 
691 struct mbuf *m0; 


692 void (*op) (struct file *); 

693 ( 

694 struct mbuf *m; 

695 struct file **rp; 

696 struct cmsghdr *cm; 

697 int is 

698 int qfds; 

699 while (m0) ( 

700 for (m = m0; m; m = m-»m next) 

701 if (m-»m type -- MT CONTROL && 

702 m-»m len »- sizeof(*cm)) ( 

703 cm - mtod(m, struct cmsghdr *); 
704 if (cm-»cmsg level !- SOL SOCKET || 
705 cm-»cmsg type !- SCM RIGHTS) 
706 continue; 

707 qfds = (cm-»cmsg len - sizeof *cm) 
708 ， / sizeof(struct file *); 

709 rp = (struct file **) (cm + 1); 
710 for (i = 0; i < qfds; i++) 

711 (*op) (*rp-**); 

712 break; /* XXX, but saves time */ 
713 ) 

714 m0 = m0-»m nextpkt; 

415 } 

716 ) 


uipc usrreg.c 
图 18-15 unp scantA 


1. 查找 控制 mbuf 
699-706 这 个 函数 检查 插口 接收 队列 上 (m0 参数 ) 所 有 的 分 组 ， 并 且 扫 描 每 一 个 分 组 的 mbuf 
链 去 查找 一 个 类 型 为 MT_CONTROL 的 mbuf。 当 发 现 一 个 控制 报 文 时 ， 如 果 层 次 是 
SOL_SOCKET， 类 型 是 SCM_RIGHTS， 那 么 mbuf 包 含 没有 被 接收 的 传送 中 的 描述 符 。 

2. 释放 保持 的 Eile 引 用 
707-716 qfds 是 控制 信息 中 fi1le 表 指针 的 数量 ， 对 每 一 个 Eile 指 针 调用 op 函数 
(unp_discard 或 unp_mark)。op 函 数 的 参数 是 控制 信息 中 的 £ile 指 针 。 当 处 理 完 该 控制 
mbuf 轩 ， 执 行 break， 跳 出 循环 ， 处 理 接收 缓存 中 的 下 一 个 分 组 。 


712 行 的 注释 XXX 表 示 : 因为 break 假 定 每 个 mbuf 链 仅 有 一 个 控制 mbuf， 这 实 
际 上 是 对 的 。 


18.9 unp gc 函数 


我 们 已 经 看 到 用 来 处 理 传 送 中 的 描述 符 的 无 用 单元 收集 函数 的 一 种 形式 : 在 
unp_detach 中 ,无 论 什么 时 候 关 闭 一 个 Unix 域 插口 ， 并 且 描 述 符 在 传送 中 ，sorflush 就 
释放 任何 传送 中 的 、 包 含 在 关闭 插口 接收 队列 上 的 描述 符 。 然 而 ， 在 Unix 域 插口 间 传 送 的 描 
述 符 也 有 可 能 “丢失 ”， 在 三 种 情况 下 这 种 事情 可 能 发 生 。 

1) 当 描 述 符 被 传送 时 ， 一 个 类 型 为 MT _ CONTROL 的 mbuf 由 sbappendcontrol( 图 18-2) 

放 在 插口 接收 队列 上 。 但 是 ， 如 果 接 收 进程 调用 recvmsg 却 没有 说 明 想 接 收 控制 信息 ， 
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或 者 调用 一 个 不 能 接收 控制 信息 的 其 他 输入 函数 ，soreceive 就 调用 MFREE， 从 插口 
接收 缓存 中 删除 类 型 为 MT_CONTROL 的 mbuf， 并 释放 它 ( 卷 2 图 15-44)。 但 是 ， 当 由 这 
个 mbuf 引 用 的 Eile 结 构 被 发 送 者 关闭 时 ， 它 的 E_count 和 fE_msgcount 将 全 为 1( 回 
想 图 18-6)， 全 局 变量 unp_rights 仍 然 表 明 这 个 描述 符 在 传送 中 。 这 是 一 个 没有 被 其 
他 任何 描述 符 引 用 的 file 结 构 ， 并 且 将 来 也 不 会 被 一 个 描述 符 引 用 ， 但 是 仍 在 内 核 的 
活动 file 结 构 链表 上 。 

[Leffler et al.1989] 的 第 305 页 讲 到 ， 问 题 是 在 报 文 被 传送 到 插口 层 等 待 传送 之 
后 ， 内 核 不 允许 协议 再 访问 该 报 文 ; 他 们 还 后 见 之 明 地 讲 到 ， 当 一 个 类 型 为 
MT_CONTROL 的 mbuf 被 释放 时 ， 这 个 问题 应 当 由 触发 的 每 个 域 的 处 理 函 数 来 处 理 。 


2) 当 描 述 符 被 传送 ， 但 是 接收 插口 没有 空间 存放 这 个 报 文 时 ， 不 需要 任何 说 明 就 丢弃 这 
个 传送 中 的 描述 符 。 这 种 情况 在 一 个 Unix 域 流 插口 中 应 当 不 会 发 生 ， 因 为 在 18.2 节 中 
我 们 看 到 ， 发 送 者 的 高 水 位 标记 反映 了 接收 者 缓存 中 的 空间 大 小 ， 使 得 在 接收 缓存 有 
了 空间 之 前 发 送 者 的 高 水 位 标记 一 直 阻 塞 发 送 者 。 但 是 在 一 个 Unix 域 数据 报 插口 中 可 
能 会 失败 ， 如 果 接 收 缓存 没有 足够 的 空间 ，sbappendaddr( 在 图 18-1 中 调用 ) 返 回 0， 
error 设 置 为 ENOBUFS， 在 标号 release 处 的 代码 会 删除 包含 控制 报 文 的 mbuf， 这 
就 如 同 在 前 一 个 例子 中 一 样 导致 相同 的 情况 : 一 个 没有 被 任何 描述 符 引 用 的 file 结 构 ， 
并 且 将 来 也 不 会 被 一 个 描述 符 引 用 。 

3) 当 一 个 Unix 域 插口 fdi 在 另 一 个 Unix 域 插口 fd4j 上 传送 时 ，fdj 也 在 fdi 上 传送 。 如 果 两 个 
Unix 域 插口 在 没有 接收 到 传送 的 描述 符 时 关闭 ， 这 些 描述 符 就 有 可 能 丢失 。 我 们 将 看 
到 4.4BSD 直 接 处 理 了 这 个 问题 (图 18-18)。 

开始 两 种 情况 的 关键 事实 是 ,“ 丢 失 的 ”file 结 构 的 E_count 等 于 它 的 E msgcount(H[ 
对 这 个 描述 符 的 引用 是 在 控制 报 文 中 )， 并 且 file 结 构 当前 没有 被 内 核 中 所 有 Unix 域 插口 的 
接收 队列 中 任何 控制 报 文 引用 。 如 果 Eile 结 构 的 E_count 超 过 了 它 的 E_msgount ， 那 么 差 
别 就 是 在 引用 结构 的 进程 中 描述 符 数 ， 所 以 结构 没有 丢失 (一 个 file 的 E_count 值 必须 不 能 
小 于 它 的 E_msgcount 值 ， 否 则 某 些 事情 就 要 受到 破坏 )。 如 果 fE_count 等 于 f_msgcount， 
但 是 Eile 结 构 被 Unix 域 插口 上 的 控制 报 文 引 用 ， 由 于 一 些 进程 仍然 能 从 该 插口 接收 描述 符 ， 
因而 不 会 出 现 问题 。 

无 用 单元 收集 函数 unp_gc 找 到 这 些 丢 失 的 Eile 结 构 ， 并 回收 它们 。 调 用 closef 来 回收 
file 结 构 ， 如 图 18-13 所 示 ， 因 为 closef 返 回 一 个 无 用 的 Eile 结 构 给 内 核 的 空闲 缓存 地 。 注 
意 这 个 函数 仅 在 有 传送 中 描述 符 时 才 调 用 ， 这 就 是 说 ， 仅 当 unp_rights 非 0( 图 17-14) 和 一 些 — 
Unix 域 插口 关闭 时 才 调 用 这 个 函数 。 因 而 由 于 这 个 函数 似乎 涉及 过 多 的 开销 ， 它 应 当 很 少 调用 。 

unp_gc 使 用 标记 -回收 (mark-and-sweep) 算 法 去 执行 无 用 单元 收集 , 这 个 函数 的 前 一 部 分 ， 
即 标 记 阶 段 ， 检 查 内 核 中 的 每 一 个 Eile 结 构 ， 并 把 那些 正在 使 用 的 置 上 标志 : file 结 构 要 
么 被 进程 中 的 描述 符 引 用 ， 要 么 被 Unix 域 插口 的 接收 队列 上 的 控制 报 文 引用 (这 就 是 说 ， 
file 结 构 对 应 一 个 当前 在 传送 中 的 描述 符 )。 函 数 的 后 一 部 分 ， 即 回收 阶段 ， 回 收 所 有 尚未 
置 上 标志 的 Eile 结 构 ， 因 为 这 些 file 结 构 不 在 使 用 中 。 

图 18-16 给 出 了 unp_gc 的 前 半 部 分 。 

1. 防止 函数 被 递归 调用 
594-596 全 局 变量 unp_gcing 有 防止 函数 被 递归 调用 ， 因 为 unp_gc 能 调用 sorflush， 而 
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sorflushfEiHunp dispose, unp disposeffEil/Hunp discard, unp discard 
能 调用 closef，closef 能 调用 unp_detach，unp_detach 又 能 再 次 调用 unp_gc。 

2. 清除 FMARK 和 FDEFER 标 志 
598-599 第 一 个 循环 检验 内 核 里 面 的 所 有 £ile 结 构 ， 并 且 清 除 FMARK 和 FDEFER 标 志 。 

3. 循环 到 unp_ defer 等 于 零 
600-622 只 要 unp_defez 标 志 非 0， 就 执行 ao while 循环 。 我 们 将 看 到 ， 一旦 发 现 一 个 
以 前 处 理 过 的 file 结 构 ， 就 置 上 这 个 标志 ， 我 们 认为 这 个 file 结 构 不 在 使 用 中 ,但 是 实际 
”上 是 在 使 用 的 。 一 旦 这 种 情况 发 生 ， 我 们 需要 再 次 回 过 头 来 检查 所 有 的 file 结 构 ， 因 为 有 一 
个 可 能 ， 就 是 我 们 刚才 标志 为 忙 的 结构 本 身 就 是 一 个 Unix 域 插口 ， 并 且 这 个 Unix 域 插口 在 它 
的 接收 队列 上 包括 file 引 用 。 

4. 循环 检查 所 有 的 £ile 结 构 
601-603 这 个 循环 检查 内 核 中 的 所 有 file 结 构 ， 如 果 一 个 结构 不 在 使 用 中 (E_count 等 于 
0)， 我 们 就 跳 过 去 。 


uipc usrreq.c 


587 void 

588 unp gc() 

589 ( 

590 struct file *fp, *nextfp; 

591 struct socket *so; 

592 struct file **extra ref, **fpp; 

593 int nunref, i; 

594 if (unp gcing) 

595 return; 

596 unp gcing - 1; 

597 unp defer - 0; 

598 for (fp = filehead.lh first; fp !- 0; fp = fp-»f list.le next) 
599 fp-»f flag &- ^(FMARK | FDEFER); 

600 do ( 

601 for (fp = filehead.lh first; fp !- 0; fp = fp-»f list.le next) { 
602 if (fp-»f count == 0) 

603 continue; 

604 if (fp-»f flag & FDEFER) ( 

605 fp-»f flag &- ^FDEFER; 

606 unp defer--; 

607 ) else ( 

608 if (fp-»f flag & FMARK) 

609 continue; 

610 if (fp-»f count == fp-»f msgcount) 

611 continue; 

612 fp-»f flag |- FMARK; 

613 ) 

614 if (fp-»f type !- DTYPE SOCKET || 

615 (so = (struct socket *) fp-»f data) == 0) 
616 continue; 

617 if (so-»so proto-»pr domain !- &unixdomain || 
618 (so-»so proto-»pr flags & PR RIGHTS) == 0) 
619 continue; 

620 unp scan(so-»so rcv.sb mb, unp mark); 

621 ) 

622 ) while (unp defer); 
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图 18-16 unp_gc 函 数 : 第 一 部 分 ， 标 记 阶 段 
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5. 处 理 延 迟 的 结构 
604-606 ”如果 已 经 置 上 FDEFER 标 志 ， 那 么 就 要 关闭 这 个 标志 ， 并 且 unp_defer 计 数 器 也 
要 减 小 。 当 unp_mark 置 上 FDEFER 标 志 时 ，FMARK 标 志 也 被 置 上 ， 这 样 我 们 就 知道 这 个 记录 
项 在 使 用 中 ， 并 且 我 们 还 将 检查 在 i£ 语 句 的 末尾 是 否 是 一 个 Unix 域 插口 。 

6. 中 过 已 经 处 理 过 的 结构 
607-609 如 果 设 置 了 FMRARK 标 志 ， 那 么 记录 项 正在 使 用 中 ， 并 且 已 经 被 处 理 过 了 。 

7. 不 标记 丢失 的 结构 
610-611 如 果 f_count 等 于 f_msgcount， 则 这 个 记录 项 会 可 能 丢失 。 它 没有 被 标记 ， 并 
被 跳 过 去 了。 由 于 它 似 乎 不 在 使 用 中 ， 所 以 我 们 不 能 检查 它 是 否 是 一 个 在 接收 队列 上 有 传送 
中 描述 符 的 Unix 域 插口 。 

8. 标记 使 用 中 的 结构 
612 在 这 一 点 上 我 们 知道 这 个 记录 项 在 使 用 中 ， 所 以 要 置 上 FMARK 标 志 。 

9. 检验 结构 是 否 与 一 个 Unix 域 插口 相连 
614-619 既然 这 个 记录 项 在 使 用 中 ， 我 们 就 检验 看 它 是 否 是 一 个 有 socket 结 构 的 插口 。 
下 一 次 检验 确定 这 个 插口 是 否 是 带 有 PR_RIGHTS 标 志和 集 的 Unix 域 插口 。 设 置 这 个 标志 是 为 了 
Unix 域 流 和 数据 报 协议 。 如 果 任 何 一 个 测试 结果 是 错 的 ， 就 要 跳 过 这 个 记录 项 。 

10. 扫描 Unix 域 插口 接收 队列 上 传送 中 的 描述 符 
620 在 这 一 点 上 file 结 构 对 应 一 个 Unix 域 插口 。unp_scan 遍 历 插口 接收 队列 ， 寻 找 包含 
传送 中 描述 符 的 类 型 为 MT_CONTROL 的 mbuf。 如 果 发 现 ， 就 调用 unp_mark。 


在 此 处 ， 源 代码 也 应 当 能 处 理 Unix 域 桂 口 的 已 完成 连接 队列 (so_dq)[McKusick 

et al.1996]， 一 个 客户 进程 把 描述 符 传送 给 一 个 新 创建 的 还 在 等 着 接收 的 服务 器 插口 

是 完全 可 能 的 。 

图 18-17 给 出 了 一 个 标记 阶段 的 例子 ， 并 且 在 标记 阶段 可 能 需要 多 次 扫描 file 结 构 链表 。 

这 个 图 描述 了 在 标记 阶段 第 一 次 扫描 完成 时 的 结构 状态 ， 此 时 unp_defer 为 1!， 需 要 再 一 次 
扫描 所 有 的 £ile 结 构 。 当 从 左 至 右 处 理 四 个 file 结 构 时 ， 开 始 下 列 处 理 过 程 。 

1) file 结 构 在 引用 它 的 进程 中 有 两 个 描述 符 (E_count 等 于 2)， 但 是 没有 引用 传送 中 的 
描述 符 (£_msgcount 等 于 0)。 图 18-16 中 的 代码 设置 {_f1ag 字 段 中 的 FMARK 比 特 位 。 
这 个 结构 指向 一 个 vnode( 我 们 忽略 了 f_type 值 的 DTYPE_ 前 级 ， 男 外 我 们 仅仅 给 
了 f£_flag 字 段 中 的 FMARK 和 FDEFER 标 志 ， 实 际 上 其 他 标志 值 也 有 可 能 在 这 个 字段 上 
出 现 )。 l 

2) 因为 £_count 等 于 f_msgcount， 所 以 这 个 结构 好 像 没 有 被 引用 。 当 被 标记 阶段 处 理 
后 ，f_flag 字 段 不 变 。 

3) 因为 这 个 结构 被 进程 中 的 一 个 描述 符 引 用 ， 所 以 要 置 上 FMARK 标 志 。 还 有 ， 由 于 这 个 
结构 对 应 于 一 个 Unix 域 插口 ，unp_scan 还 要 处 理 插口 接收 队列 上 的 任何 控制 报 文 。 
控制 报 文中 的 第 一 个 描述 符 指向 第 二 个 file 结 构 ， 并 且 由 于 在 第 二 步 中 没有 设置 
FMARK 标 志 ，unp_mark 就 要 置 上 FMARK 和 FDEFER 这 两 个 标志 。 因 为 这 个 结构 已 经 处 
理 过 ， 并 且 发 现 没 有 被 引用 ， 所 以 unpP_defetr 也 要 增加 到 1 。 
控制 报 文中 的 第 二 个 描述 符 指 癌 第 四 个 Eile 结 构 ， 并 且 由 于 没有 置 上 FMARK 标 志 ( 它 
其 至 还 没有 被 处 理 过 )， 因 此 就 要 置 上 FMARK 和 FDEFER 标 志 ，unp_defer 增 加 到 2，。 
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4) 设置 这 个 结构 的 FDEFER 标 志 ， 所 以 图 18-16 中 的 代码 关闭 这 个 标志 ， 并 将 unp_defer 
减 小 到 1。 即 使 这 个 结构 也 被 进程 中 的 描述 符 引 用 ,但 是 因为 已 经 知道 这 个 结构 被 传送 
中 的 描述 符 引用 ， 从 而 也 就 不 需要 检查 它 的 E_count 和 fE_msgcount 值 。 


file() file() 









f msgcount 


图 18-17 标记 阶段 第 一 次 扫描 后 的 数据 结构 


此 时 ， 所 有 四 个 file 结 构 都 被 处 理 过 了 ,但 是 unp_defer 等 于 1， 所 以 就 需要 再 一 次 扫 
描 所 有 的 结构 。 因 为 确信 第 一 次 循环 没有 引用 过 的 第 二 个 结构 也 许 是 一 个 Unix 域 插口 ， 并 且 . 
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在 这 个 Unix 域 插口 的 接收 队列 上 有 控制 报 文 ， 所 以 要 产生 再 一 次 循环 (这 不 在 我 们 的 例子 中 )。 
那个 结构 需要 被 再 次 处 理 ， 并 且 当 情况 是 这 样 时 ， 这 次 循环 可 能 会 在 认为 没有 被 引用 的 链表 
中 靠 前 的 一 些 结构 中 置 上 FMARK 和 FDEFER 标 志 。 

在 标记 阶段 的 结尾 涉及 多 次 扫描 内 核 的 file 结 构 链表 ,其 中 没有 标志 的 结构 不 在 使 用 中 。 
函数 的 第 二 段 ， 即 回收 (sweep) 部 分 ， 如 图 18-18 所 示 。 
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uipc usrreq.c 


We grab an extra reference to each of the file table entries 
that are not otherwise accessible and then free the rights 
that are stored in messages on them. 


The bug in the orginal code is a little tricky, so I’ll describe 
what's wrong with it here. 


It is incorrect to simply unp discard each entry for f msgcount 
times -- consider the case of sockets A and B that contain 
references to each other. on a last close of some other socket, 
we trigger a gc since the number of outstanding rights (unp rights) 
is non-zero. If during the sweep phase the gc code unp discards, 
we end up doing a (full) closef on the descriptor. A closef on A 
results in the following chain.  Closef calls soo close, which 
calls soclose. Soclose calls first (through the switch 

uipc usrreq) unp detach, which re-invokes unp gc.  Unp gc simply 
returns because the previous instance had set unp gcing, and 

we return all the way back to soclose, which marks the socket 

with SS NOFDREF, and then calls sofree.  Sofree calls sorflush 

to free up the rights that are queued in messages on the socket A, 
i.e., the reference on B. The sorflush calls via the dom dispose 
switch unp dispose, which unp scans with unp discard. This second 
instance of unp discard just calls closef on B. 


Well, a similar chain occurs on B, resulting in a sorflush on B, 
which results in another closef on A. Unfortunately, A is already 
being closed, and the descriptor has already been marked with 

SS NOFDREF, and soclose panics at this point. 


Here, we first take an extra reference to each inaccessible 
descriptor. Then, we call sorflush ourself, since we know 
it is a Unix domain socket anyhow. After we destroy all the 
rights carried in messages, we do a last closef to get rid 
of our extra reference. This is the last close, and the 
unp detach etc will shut down the socket. 


91/09/19, bsyGcs.cmu.edu 


extra ref - malloc(nfiles * sizeof(struct file *), M FILE, M WAITOK); 
for (nunref = 0, fp = filehead.lh first, fpp - extra ref; fp !- 0; 


fp - nextfp) ( 

nextfp = fp-»f list.le next; 

if (fp-»f count == 0) 
continue; 

if (fp-»f count == fp-»f msgcount && !(fp-»f flag & FMARK)) ( 
*fpp** = fp; 
nunref++; 
fp->f_count++; 


图 18-18 unp_gc 国 数 : 第 二 部 分 ， 回 收 阶 段 
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672 ) 

673 ) 

674 for (i = nunref, fpp = extra ref; --i >= 0; ++fpp) 

675 if ((*fpp)-»f type == DTYPE SOCKET) 

676 sorflush((struct socket *) (*fpp)-»f data); 

677 for (i = nunref, fpp = extra ref; --i >= 0; ++fpp) 

678 closef(*fpp, (struct proc *) NULL); 

679 free((caddr t) extra ref, M FILE); 

680 unp gcing - 0; 

681 ) $ 

uipc usrreq.c 

图 18-18 (4) 

11. 更 正 错 误 的 注释 


623-661 注释 涉及 4.3BSD Reno 和 Net/2 版 本 里 的 一 个 错误 ， 这 个 错误 在 4.4BSD 里 由 Bennet 
S. Yee 更 正 ， 注 释 里 提 到 的 旧 代 码 如 图 18-19 所 示 。 

12. 分 配 临 时 区 域 ` 
662 malloc 为 指向 内 核 中 所 有 file 结 构 的 指针 数组 分 配 空间 。nfiles 是 当前 使 用 中 的 
file 结 构 数 量 。M_FILE 标 识 使 用 内 存 的 目的 (vmstat -m 命 令 输出 关于 内 核 存 储 器 使 用 的 
信息 )。 如 果 当 前 得 不 到 可 用 内 存 ， 那 么 M_WAITOK 导 致 进程 转 入 睡眠 状态 。 


13. 遍历 所 有 的 file 结 构 
663-665 为 了 发 现 所 有 没有 引用 的 (丢失 的 ) 结 构 ， 这 个 循环 再 次 检查 内 核 中 的 所 有 file 
结构 。 


14. 跳 过 没有 使 用 过 的 结构 
666-667 如 果 file 结 构 的 E_count 是 0， 就 跳 过 这 个 结构 。 

15. 检查 未 引用 的 结构 
668 ”如果 在 标记 阶段 ，f_count 等 于 f_msgcount( 唯 一 的 引用 来 自 于 传送 中 的 描述 符 )， 
并 且 没 有 设置 FMARK 标 志 ( 传 送 中 的 描述 符 没有 出 现在 任何 Unix 域 插口 接收 队列 上 )， 那 么 这 
个 记录 项 是 没有 被 引用 的 。 

16. 保存 指向 Eile 结构 的 指针 
669-671 fp 的 一 个 副本 ， 即 指向 file 结 构 的 指针 ， 保 存在 分 配 的 数组 中 ， 递 增 计数 器 
nunref， 递 减 file 结 构 的 f_count。 

17. 对 没有 3 引用 的 插口 调用 sorflush 
674-676 对 每 一 个 没有 被 引用 的 插口 文件 调用 sorflush 函 数 。 函 数 sorflush( 卷 2 的 图 
15-37) 调 用 域 的 dom_ daispose 和 unp_dispose 国 数 ，unp_dispose 调 用 unp_scan 删 除 
当前 插口 接收 队列 上 任何 传送 中 的 描述 符 。unp_discard 递 减 f_msgcount 和 
unp rights, 并 且 对 在 插口 接收 队列 上 控制 报 文中 的 所 有 file 结 构 调 用 closef。 由 于 我 
们 对 这 个 £ile 结 构 ( 早 些 时 候 完 成 E_count 的 递增 ) 有 一 个 额外 的 引用 ， 而且 由 于 那个 循环 忽 
略 了 f_count 为 0 的 结构 ， 从 而 我 们 确信 E_count 等 于 2 或 者 比 2 还 要 大 。 所 以 作为 
sorflush 的 结果 去 调用 closef 将 把 file 结 构 的 f_count 减 小 到 一 个 非 0 值 ， 从 而 避免 完 
全 关闭 该 结构 。 这 就 是 为 什么 对 结构 的 额外 引用 进行 得 比较 早 。 

18. 执行 最 后 的 关闭 
677-678 对 所 有 没有 引用 的 file 结 构 调 用 cl1osef。 这 是 最 后 一 次 关闭 ， 也 就 是 说 ， 
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f_count 应 当 从 1 减 到 0， 从 而 导致 插口 关闭 ， 并 返回 Eile 结 构 给 内 核 的 空闲 缓存 池 。 

19. 返回 临时 数组 
679-680 返回 早 些 时 候 由 malloc 分 配 的 数组 ， 并 清除 unp_gcing 标 志 。 

图 18-19 表 示 了 unp_gc 国 数 的 回收 阶段 ， 同 NeV2 版 本 一 样 ， 这 部 分 代码 被 图 18-18 中 的 代 
RO ERR. 


for (fp = filehead; fp; fp = fp-»f filef) ( 


if (fp-»f count == 0) 
continue; 
if (fp-»f count == fp-»f msgcount && (fp-»f flag & FMARK) == 0) 


while (fp-»f msgcount) 
unp discard(fp); 
) 
unp gcing - 0; 


图 18-19 Net/2 版 本 中 unp_gc 函 数 回收 阶段 的 错误 代码 
这 就 是 在 图 18-18 开 始 部 分 的 注释 中 谈 到 的 代码 。 l 
不 幸 的 是 ， 虽 然 在 本 节 讨 论 的 NeV3 代 码 对 图 18-19 中 的 代码 进行 了 改进 ， 并 且 在 
图 18-18 的 开始 部 分 描述 了 错误 的 更 正 ， 但 是 代码 仍然 是 不 正确 的 ， 在 本 节 开 始 部 分 
提 到 的 前 两 种 情况 下 ，file 结 构 仍 是 有 可 能 丢失 的 。 


18.10 unp mark 函 数 


当 unp_gc 调 用 unp_scan 时 ，unp_mark 国 数 被 unp_scan 调 用 去 标记 一 个 Eile 结 构 。 
当 在 插口 接收 队列 上 发 现 传送 中 的 描述 符 时 完成 标记 过 程 ， 图 18-20 给 出 了 这 个 国 数 。 


uipc usrreq.c 
717 void pc- 1 


718 unp mark(fp) 
719 struct file *fp; 


"29, f 

721 if (fp-»f flag & FMARK) 

722 return; 

723 unp defer-4-*; 

724 fp-»f flag |= (FMARK | FDEFER); 
725 ) 


uipc usrreq.c 
图 18-20 unp markp% 


717-720 ”参数 fp 是 指向 file 结 构 的 指针 ， 这 个 file 结 构 是 在 Unix 域 插口 接收 队列 上 的 控 
制 报 文 里 发 现 的 。 

1. 如 果 记 录 项 已 经 被 标记 ， 就 返回 
721-722 如 果 file 结 构 已 经 被 标记 ， 则 不 需 做 任何 工作 ， 因 为 已 经 知道 file 结 构 在 使 用 
过 程 中 。 

2. 设置 FMARK 和 FDEFER 标 志 
723-724 递减 unp_defer 计 数 器 ， 并 且 设 置 FMARK 和 FDEFER 标 志 。 如 果 在 内 核 列表 里 这 
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个 file 结 构 比 Unix 域 插口 Eile 结 构 出 现 得 早 (也 就 是 说 ， 这 个 file 结 构 已 经 由 unP_gc 处 理 
过 了 ， 并 且 似 乎 不 在 使 用 过 程 中 ， 所 以 没有 被 标记 )， 那 么 在 unpP_gc 国 数 的 标记 阶段 
unp_defer 的 增加 会 导致 男 一 次 对 所 有 file 结 构 的 遍历 。 


18.11 性 能 (再 讨论 ) 


我 们 已 经 讨论 了 Unix 域 协议 的 实现 ， 现 在 返回 到 它们 的 性 能 上 来 看 看 ， 为 什么 要 比 TCP 
快 两 倍 (图 16-2)。 

所 有 的 插口 /1O 都 调用 sosend 和 soreceive， 与 协议 无 关 。 这 有 利 有 次， 有 利 是 因为 这 
两 个 函数 满足 许多 不 同 协议 的 需要 ， 从 字 节 流 (TCP) 到 数据 报 协议 (UDP)， 以 及 基于 记录 的 协 
iX(OSI TP4)。 不 利 的 原因 是 其 一 般 性 降低 了 性 能 ， 并 使 代码 复杂 化 。 对 于 不 同 的 协议 形式 ， 
这 两 个 函数 的 优化 版 本 会 提高 性 能 。 

比较 输出 性 能 ， 对 于 TCP, .通过 sosend 的 路 径 几 乎 与 Unix 域 流 协议 的 路 径 相同 。 假 定 大 
的 应 用 程序 进行 写 操作 (图 16-2 中 用 32 768 字 节 写 )，sosend 函 数 把 用 户 数据 打包 放 到 mbuf 矮 
中 ， 然 后 通过 PRU_SEND 请 求 将 每 一 个 2048 字 节 簇 传送 给 协议 。 所 以 ， 无 论 是 TCP 还 是 Unix 
域 都 要 处 理 相同 数量 的 PRU_SEND 请 求 。 对 于 速度 上 的 差异 ，Unix 域 PRU_SEND( 图 18-2) 的 输 
出 应 当 比 TCP 输 出 ( 它 调 用 IP 输 出 把 每 一 段 添加 到 环 回 驱动 器 输出 队列 ) 简 单 。 

由 于 PRU_SEND 请 求 把 数据 放 到 接收 插口 的 接收 缓存 ， 所 以 在 接收 方 唯一 与 Unix 域 插口 
有 关 的 函数 是 soreceive。 尽 管 如 此 ， 对 于 TCP， 环 回 驱 动 器 把 每 一 段 数 据 放 到 IP 输 入 队列 
E, 后面 紧 跟着 IP 处 理 ， 再 后 面 跟着 TCP 输 入 处 理 把 每 一 段 分 解 到 正确 的 插口 ， 然 后 将 数据 
放 到 插口 的 接收 缓存 。 


18.12 小 结 


当 把 数据 写 到 一 个 Unix 域 插口 时 ， 立 即将 数据 添加 到 接收 插口 的 接收 缓存 中 ， 没 有 必要 
将 发 送 插口 发 送 缓存 里 的 数据 进行 缓存 。 基 于 这 个 原因 ， 为 了 使 流 播 口 能 正确 地 工作 ， 
PRU_SEND 和 PRU_RCVD 请 求 操纵 发 送 缓存 的 高 水 位 标记 ， 从 而 使 得 这 个 标记 总 是 反映 对 等 
端 接收 缓存 中 的 空间 数量 。 

Unix 域 插口 提供 了 将 描述 符 从 一 个 进程 传送 到 另 一 个 进程 的 机 制 。 对 于 进程 间 通 信 来 说 ， 
这 是 一 项 强大 的 技术 。 当 一 个 描述 符 从 一 个 进程 传送 到 另 一 个 进程 时 ， 首 先 这 个 描述 符 要 内 
部 化 (转换 成 对 应 的 Eile 指 针 )， 再 将 这 个 指针 传送 到 接收 插口 。 当 接收 进程 读 到 控制 信息 时 ， 
file 指 针 要 外 部 化 (转换 成 接收 进程 中 最 小 的 、 没 有 编号 的 描述 符 )。 然 后 将 描述 符 再 返回 到 
这 个 进程 。 

容易 处 理 的 一 个 错误 情况 是 ， 当 Unix 域 插口 的 接收 缓存 中 有 传送 中 描述 符 的 控制 信息 时 ， 
插口 关闭 。 不 幸 的 是 还 有 其 他 两 种 不 容易 处 理 的 错误 情况 : 一 种 是 接收 进程 没有 请 求 接收 在 
其 接收 缓存 中 的 控制 信息 ， 另 一 种 是 接收 缓存 中 没有 足够 的 空间 来 保存 控制 信息 。 在 这 两 种 
错误 情况 下 就 会 丢失 file 结 构 ， 这 就 是 说 ， 它 们 既 不 在 内 核 的 空闲 缓存 地 中 ,也 不 在 使 用 中 。 
从 而 需要 无 用 单元 收集 函数 回收 这 些 丢 失 的 结构 。 

无 用 单元 收集 函数 执行 一 个 标记 阶段 ， 在 这 个 标记 阶段 中 扫描 所 有 内 核 的 Eile 结 构 ， 同 
时 把 在 使 用 中 的 描述 符 置 上 标志 ， 在 后 面 紧 跟着 回收 阶段 ， 回 收 所 有 没有 被 标记 的 结构 。 虽 
然 需要 这 个 函数 ， 但 是 很 少 使 用 它 。 
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本 书 正文 中 用 到 了 分 组 经 过 网 络 传输 时 传输 时 间 的 测量 。 本 附录 给 出 其 细节 和 我 们 能 够 
测量 的 各 种 时 间 的 测量 例子 。 我 们 要 介绍 用 Ping 程 序 实现 的 RTT 测 量 ， 向 上 和 向 下 经 过 协议 栈 
的 时 间 测 量 ， 以 及 等 待 时 间 与 带宽 的 差异 。 
网 络 程序 员 或 系统 管理 员 通常 有 两 种 办 法 可 以 用 来 测量 应 用 事务 所 需 的 时 间 : 
D 采用 应 用 程序 定时 器 。 例 如 ， 在 图 1-1 的 UDP 客户 程序 中 ， 我 们 在 调用 sendato 之 前 取 
到 了 系统 时 钟 ， 在 recvfrom 国 数 返 回 后 又 取 到 了 系统 时 钟 ， 其 差额 就 是 应 用 程序 发 
送 请 求 至 收 到 应 答 的 时 间 。 
如 果 内 核 提供 了 高 精度 的 时 钟 (ms 数量 级 ), 则 我 们 所 测 得 的 值 ( 几 毫 秒 或 以 上 ) 就 很 精确 。 
卷 1 的 附录 A 给 出 了 这 一 类 测量 方法 的 更 多 细节 。 

2) 采用 软件 工具 来 监视 指定 分 组 ， 并 计算 相应 的 时 间 差 ， 如 和 骨 入 到 数据 链 路 层 的 
Tcpdump。 在 卷 1 的 附录 A 中 有 这 些 工具 的 更 多 细节 。 
在 这 本 书 中 ， 我 们 假定 数据 链 路 的 柑 入 点 在 Tcpdump 中 用 BSD 分 组 过 滤器 (BPF) 提 供 。 
卷 2 的 第 31 章 给 出 了 BPF 实 现 的 许多 细节 。 卷 2 图 4-11 和 图 4-19 说 明了 在 典型 以 太 网 驱动 
程序 中 哪里 要 有 BPF 调 用 ， 图 15-27 则 说 明了 在 环 路 测试 驱动 程序 中 的 BPF 调 用 。 

我 们 注意 到 本 书 中 的 例子 用 到 的 系统 (图 1-13)， 包 括 80386 上 的 BSD/OS 2.0 和 Sparcstation 
ELC 上 的 Solaris 2.4， 都 给 应 用 程序 计时 和 Tcpdump 时 间 戳 提供 高 精度 的 定时 器 。 

最 可 靠 的 方法 是 在 网 络 电缆 上 连接 一 个 网 络 分 析 仪 ， 但 往往 没有 这 样 的 仪器 。 


A.1 利用 Ping 的 RTT 测 量 


在 卷 1 的 第 7 章 详细 介绍 了 无 所 不 在 的 Ping 程 序 ， 利 用 应 用 定时 器 来 计算 ICMP 分 组 的 
RTT( 往 返 时 间 )。 程 序 发 送 一 个 ICMP 回 显 请 求 分 组 给 服务 器 服务 器 紧 接着 向 客户 回复 一 个 
回 显 应 答 分 组 。 客 户 可 以 在 回 显 请 求 分 组 中 将 发 送 时 的 时 钟 值 作为 用 户 可 选 数据 记录 在 该 分 
组 中 ， 然 后 服务 器 会 在 应 答 中 返回 这 个 时 钟 值 。 客 户 收 到 回 显 应 答 时 ， 它 就 取 当 前 时 钟 值 计 
算出 RIT， 然 后 打印 出 来 。 图 A-1 给 出 了 Ping 分 组 的 格式 。 


20 字 节 8 375 
图 A-1 Ping 分 组 : ICMP 回 显 请 求 或 ICMP 回 显 应 答 


Ping 程 序 允 许 我 们 指定 分 组 中 可 选用 户 数 据 的 长 度 ， 使 我 们 能 够 测量 分 组 长 度 对 RTT 的 影 
响 。 如 果 是 用 Ping 来 测量 RTT， 可 选 数据 的 长 度 必 须 至 少 8 字 节 (客户 发 出 和 服务 器 应 答 的 时 间 戳 
要 占用 8 个 字 节 )。 如 果 指 定 的 用 户 数据 长 度 少 于 8 字 节 ，Ping 也 能 工作 ， 但 不 能 计算 并 打印 RTT。 

图 A-2 画 出 了 在 三 个 不 同 局 域 网 上 的 主机 间 用 Ping 测 得 的 RTT 典 型 值 。 图 中 间 的 一 条 线 是 
图 1-13 中 主机 bsdi 和 sun 间 的 RTT。 
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Ping: 用 户 数据 ( 字 节 ) 
图 A-2 三 个 以 太 网 上 的 主机 间 Ping RTT 值 


用 15 个 不 同 的 分 组 长 度 进行 了 测量 :8 字 节 用 户 数据 以 及 从 100 至 1400 字 节 的 用 户 数据 (以 
100 字 节 递 增 )。 加 上 20 字 节 的 IP 首 部 和 8 字 节 的 ICMP 首 部 ，IP 数 据 报 的 长 度 就 在 36~1428 字 节 
之 间 。 对 每 一 个 分 组 长 度 都 进行 了 10 次 测量 ， 图 中 只 画 出 了 10 个 值 中 最 小 的 那个 。 与 我 们 所 
期 望 的 一 致 ， 分 组 长 度 增加 后 RTT 也 增 大 。 三 条 线 之 间 的 差别 是 因 处 理 器 速度 、 接 口 卡 和 操 
作 系 统 的 不 同 而 造成 的 。 

图 A-3 给 出 了 经 Internet、WAN 互 连 的 各 种 主机 之 间 典 型 的 RTT 值 。 注 意 y 轴 的 刻度 与 图 A- 
2 中 的 有 差别 。 
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Ping: 用 户 数 据 (FH) 


图 A-3 经 Internet( 一 个 WAN) 互 连 的 主机 间 Ping RTT 值 
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与 在 LAN 上 测量 那样 ， 对 WAN 进 行 了 同样 的 测量 : 对 15 个 不 同 长 度 的 分 组 各 进行 了 10 次 测 
量 ， 每 个 分 组 长 度 只 画 出 了 10 个 值 中 最 小 的 那个 值 。 图 中 的 括号 中 是 每 对 主机 之 则 的 转发 段 数 。 

图 中 最 上 边 的 曲线 (最 长 的 RTT) 表 示 Internet 上 分 别 位 于 Arizona(noao.edu) 和 
Netherlands(utwente.n1) 的 一 对 主机 之 间 需 要 25 有 段 转发 。 自 上 而 下 的 第 2 条 曲线 也 是 跨越 大 
西洋 的 ， 是 Connecticut(connix.com) 和 London(ucl .ac.uk) 之 间 的 一 对 主机 。 接 下 来 两 条 
曲线 在 美国 内 部 ， 分 别 是 Connecticut 和 Arizona 之 间 的 一 对 主机 (connix.com 与 noao .edu)， 
以 及 California 和 Washington D.C. 之 间 的 一 对 主机 (berkeley .edu 和 uu .net)。 再 接 下 来 的 
曲线 是 地 理 上 很 近 的 一 对 主机 (Connecticut 的 connix.com 和 Boston 的 aw.com), 但 从 经 过 
Internet 传 送 的 转发 段 数 (16) 来 衡量 ， 却 是 离 得 很 远 的 。 

图 中 底部 的 两 条 线 (RTT 值 最 小 的 ) 是 作者 所 在 局 域 网 (图 1-13) 上 的 主机 之 间 的 。 基 中 最 底 
下 的 那 条 线 是 从 图 A-2 复 制 来 的 ,以 便 对 典型 的 LAN 上 的 RTT 与 典型 的 WAN 上 的 RTT 进 行 比 较 。 
在 最 底下 的 第 2 条 线 ， 即 bsdi 和 1laptop 之 间 的 RTT 线 ， 后 者 的 以 太 网 卡 是 插 在 计算 机 的 并 行 
口上 的 。 尽 管 该 系统 也 是 接 在 以 太 网 上 的 ， 但 由 于 并 行 口 的 传输 速率 较 慢 ， 看 上 去 就 像 是 接 
在 WAN 上 一 样 。 


A.2 协议 栈 测 量 


我 们 也 可 以 用 Ping， 并 加 上 Tcpdump 来 测量 在 协议 栈 上 花费 的 时 间 。 例 如 ， 图 A-4 中 就 给 
出 了 在 一 台 主 机 上 运行 Ping 和 Tcpdump， 对 环 回 测试 地 址 (一 般 是 127.0.0.1)，Ping 的 执行 步骤 。 





图 A-4 在 一 台 主 机 上 运行 Ping 和 Tcpdump 


假设 应 用 程序 在 就 要 向 操作 系统 发 出 回 显 请 求 分 组 时 启动 定时 器 ， 然 后 在 操作 系统 返回 
回 显 应 答 时 停 掉 定 时 器 ， 应 用 程序 测 得 的 时 间 差 和 Tcpdump 测 得 的 时 间 差 就 分 别 是 ICMP 输 出 、 
IP 输 出 、 卫 输入 和 ICMP 输 入 之 间 所 需 的 时 间 。 

我 们 也 可 以 测量 任何 客户 一 服务 器 应 用 程序 之 间 的 类 似 值 。 图 A-5 给 出 了 1.2 节 UDP 客户 
一 服务 器 应 用 的 处 理 步 又， 其 中 假设 客户 和 服务 器 在 同一 台 主 机 上 。 
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图 A-5 UDP 客户 -服务 器 事务 的 处 理 步 又 


这 个 UDP 的 客户 一 服务 器 例子 与 图 A-4 的 Ping 例 子 之 间 的 一 个 不 同 之 处 是 ， 这 里 的 UDP 服 

务 器 是 一 个 用 户 进 程 ， 而 Ping 服 务 器 则 是 ICMP 内 核 的 一 部 分 ( 卷 2 图 11-21)。 因 此 ，UDP 服 务 

器 中 在 内 核 和 用 户 进程 之 间 要 有 两 份 客户 数据 : 服务 器 输入 和 服务 器 输出 。 内 核 与 用 户 进程 
之 间 复制 数据 通常 都 是 比较 费时 的 操作 。 

图 A-6 给 出 了 在 主机 bsdi 上 进行 的 各 项 测试 结果 ， 可 以 比较 Ping 客 户 一 服务 器 和 UDP 客 
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0 200 400 600 800 1000 1200 1400 1600 1800 2000 
用 户 数据 Ce) 
图 A-6 单个 主机 上 ( 环 回 接口 ) 的 Ping 和 Tcpdump 测 量 结果 
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户 一 服务 器 这 两 种 方式 。 图 中 y 轴 标的 是 “ 测 得 的 事务 时 间 ”， 因 为 RTT 通 常 都 是 指 网 络 的 往返 
时 间或 Ping 的 时 间 输 出 (在 图 A-8 中 可 以 看 到 ， 它 与 网 络 的 RTT 非 常 接近 )。 在 这 里 的 UDP、 
TCP 和 T/TCP 客 户 一 服务 器 方式 中 ， 可 以 测量 应 用 程序 的 事务 上 时间。 在 TCP 和 T/TCP 的 例子 中 ， 
这 可 能 要 包括 多 个 分 组 和 多 次 网 络 RTT。 

在 这 个 图 的 Ping 测 量 中 采用 了 23 种 不 同 的 分 组 长 度 :用 户 数据 从 100 字 节 到 2 000 字 节 变 化 ， 
增 量 为 100 字 节 ， 再 加 上 8、1508 和 1509 字 节 。 其 中 8 字 节 是 用 Ping 来 测量 RTT 的 最 短 用 户 数 据 
长 度 ，1508 是 不 会 在 IP 层 分 段 的 最 大 数据 长 度 ， 因 为 BSD/OS 采 用 了 1536 的 MTU 作 为 坏 测 接 
口 (1508+20+8)。1509 字 节 则 是 会 在 IP 层 进行 分 段 的 最 小 数据 长 度 。 

在 UDP 测量 中 也 采用 了 23 种 类 似 长 度 的 分 组 : 用 户 数据 长 度 从 100 字 节 到 2 000 字 节 变 化 ( 增 
量 100)， 再 加 上 0、1508 和 1509。0 字 节 的 UDP 数据 报 也 是 允许 的 。 由 于 UDP 的 首部 与 ICMP 回 
显 测试 分 组 的 首部 一 样 长 (8 字 节 )，1508 又 是 避免 在 环 测 接口 上 分 段 的 最 大 分 组 ，1 509 是 需要 
分 段 的 最 小 分 组 。 

我 们 首先 注意 到 的 是 在 用 户 数据 为 1509 字 节 时 的 时 间 跳 变 ， 这 时 需要 分 段 。 这 也 是 想像 
之 中 的 。 当 出 现 分 段 时 ， 在 图 A-4 和 图 A-5 中 左边 对 “IP 输 出 ”的 一 次 调用 会 产生 两 次 对 “ 环 
测 驱 动 程序 ”的 调用 ， 每 段 一 次 。 从 1508 到 1509， 即 使 用 户 数据 只 增加 了 一 个 字 节 ， 应 用 程 
序 就 感觉 到 事务 时 间 增 加 了 近 25%， 因 为 多 出 一 个 每 分 组 处 理 时间 。 

所 有 4 条 线 中 ， 在 200 字 节点 的 时 间 增 加 是 由 于 BSD 的 mbuf 实 现 中 的 非 自然 处 理 造成 的 ( 卷 
2 的 第 2 章 )。 对 于 最 小 分 组 (UDP 测量 中 的 0 字 节 用 户 数据 和 Ping 测 量 中 的 8 字 节 用 户 数据 )， 数 
据 和 分 组 的 首部 可 以 写 和 一 个 mbuf 中 ， 在 100 字 节点 需要 第 二 个 mbuf， 在 200 字 节点 则 需要 第 
三 个 mbuf。 最 后 ， 在 300 字 节点 ， 内 核 开 始 采用 2048 字 节 的 mbuf 徐 来 代替 较 小 的 mbuf。 看 起 
来 ， 用 一 个 mbuf 徐 比 用 多 个 mbuf 会 快 一 些 (例如 ， 在 100 字 节点 )， 可 以 减少 处 理 时 间 。 这 是 
典型 的 时 间 一 空间 折 中 的 例子 。 从 采用 较 小 的 mbuf 到 采用 较 大 的 mbuf 纺 的 切换 条 件 是 数据 量 
是 否 超过 208 字 节 ， 这 是 在 许多 年 前 当 内 存 还 很 紧张 时 设计 的 。 

图 1-14 中 的 定时 测量 是 用 修改 后 的 BSD/OS 内 核实 现 的 ， 其 中 的 常数 MINCLSIZE 

( 卷 2 图 2-7 和 图 16-25) 从 208 改 为 101。 这 样 就 使 得 一 旦 用 户 数据 超过 100 字 节 就 分 配 

mbuf 族 。 只 要 注意 就 可 以 看 到 ， 图 1-14 中 没有 在 200 字 节点 出 现 炎 角 。 

我 们 在 14.11 节 也 讨论 过 这 个 问题 ， 在 那里 我 们 看 到 ， 许 多 Web 客 户 请 求 都 在 
100~200 字 节 之 间 。 

图 A-6 中 ， 开 始 分 段 之 前 ， 两 条 UDP 曲线 之 间 的 相差 在 1.5~2 ms 之 间 。 因 为 这 个 差额 已 经 - 
把 UDP 输出 、 了 P 输 出、IP 输 入 和 UDP 输入 (图 A-5) 考 虑 在 内 ， 如 果 我 们 假设 协议 的 输出 逼近 于 
协议 输入 ， 那 么 就 相当 于 分 组 发 送 时 向 下 穿 过 协议 栈 要 花 不 到 1ms 的 时 间 ， 接 收 时 分 组 向 上 穿 
过 协议 栈 又 要 花 不 到 1 ms 的 时 间 。 这 些 时 间 包 括 了 发 送 时 要 将 多 份 数 据 从 进程 传递 给 内 核 ， 
以 及 数据 返回 时 从 内 核 传递 到 进程 。 

由 于 图 A-5 中 Tcpdump 测 量 要 经 历 同样 的 4 个 步骤 (IP 输 入 、UDP 输 入 、UDP 输 出 和 JP 输出)， 
我 们 可 以 预计 到 UDP Tcpdump 的 两 条 曲线 相差 也 在 1.5~2 ms 之 间 ( 只 考虑 发 生 分 段 前 的 值 )。 与 
第 一 个 数据 点 不 同 ， 图 A-6 中 其 余 的 数据 也 在 1.5~2 ms 之 间 。 

如 果 我 们 考虑 发 生 了 分 段 以 后 的 值 ， 图 A-6 中 两 条 UDP 曲线 之 间 相 差 2.5~3 ms。 跟 预期 的 
一 样 ，UDP Tcpdump 的 值 也 在 2.5~3 ms 之 间 。 
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最 后 可 以 看 到 ， 图 A-6 中 ，Ping 的 Tcpdump 曲 线 几 乎 是 平坦 的 ， 但 Ping 的 应 用 程序 测量 则 
有 一 个 正 的 斜率 。 这 很 可 能 是 因为 应 用 程序 测量 了 两 份 用 户 进程 和 内 核 之 间 的 数据 ， 但 
Tcepdump 则 一 份 也 不 需要 测量 (因为 Ping 服 务 器 是 内 核 的 ICMP 实 现 的 一 部 分 )。 另 外 ，Ping 的 
Tcpdump 曲 线 非常 轻微 的 正 斜 率 很 可 能 是 由 于 内 核 Ping 服 务 器 的 两 次 操作 造成 的 ， 这 些 操作 对 
每 一 个 字 节 都 要 执行 : 接收 ICMP 的 检验 和 验证 和 输出 ICMP 的 检验 和 计算 。 

我 们 也 可 以 修改 1.3 节 和 1.4 节 的 TCP 和 T/TCP 客 户 一 服务 器 应 用 ， 以 测量 每 一 次 事务 的 时 
间 ( 见 1.6 节 的 叙述 )， 并 对 不 同 分 组 长 度 进行 测量 。 测 量 结果 见 图 A-7( 在 本 附录 余下 的 事务 测 
. 量 中 ， 我 们 测 到 用 户 数据 长 度 为 1400 字 市 就 结束 了 ， 因 为 TCP 不 分 段 )。 
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图 A-7 单个 主机 上 ( 环 回 接口 ) 的 TCP 和 T/TCP 客 户 一 服务 器 事务 时 间 测 量 结果 


Tcpdump 曲 线 测量 的 是 从 客户 发 出 第 一 个 报 文 段 (对 TCP 客 户 是 一 个 SYN， 对 T/TCP 客 户 
则 是 SYN、 数 据 和 FIN 的 组 合 ) 至 收 到 服务 器 发 回 的 最 后 一 个 报 文 段 (对 TCP 客 户 是 一 个 FIN， 
对 T/TCP 客 户 则 是 数据 和 FIN 的 组 合 ) 为 止 的 时 间 间 隔 。 相 应 地 ，TCP 应 用 曲线 和 TCP Tcpdump 
曲线 之 间 的 差别 也 就 是 协议 栈 用 于 处 理 connect 和 FIN 所 需 的 时 间 ( 图 1-8 给 出 了 分 组 交换 )。 
T/TCP 客 户 一 服务 器 的 应 用 曲线 和 Tcpdump 曲 线 的 差别 就 是 协议 栈 用 于 处 理 客户 的 sendto 所 
需 的 时 间 ， 其 中 包括 客户 数据 和 最 后 一 个 FIN( 图 1-12 给 出 了 分 组 交换 )。 我 们 可 以 看 到 ， 两 条 
T/TCP 曲 线 之 间 的 差距 (大 约 4 ms) 大 于 两 条 TCP 曲 线 之 间 的 差距 (大 约 2.5 ms)， 这 是 合理 的 ， 因 
为 TTCP 的 协议 栈 处 理 量 (在 第 一 段 报 文中 要 发 送 SYN、 数 据 和 FIN) 比 TCP 的 (第 一 段 报 文中 只 
发 送 SYN) 要 大 。 

4 条 曲线 均 在 200 字 节 处 开始 上 升 ， 再 次 说 明 内 核 应 该 尽快 采用 mbuf 徐 。 注 意 ，TCP 和 
T/TCP 在 200 字 节 处 的 增加 比 在 图 A-6 中 Ping 和 UDP 的 要 大 得 多 。 对 于 数据 报 协 议 (ICMP 和 
UDP) 来 说 ， 尽 管 分 配 了 3 个 mbuf 来 缓存 首部 和 用 户 数 据 ， 但 内 核 中 插口 层 对 协议 输出 例 程 的 


238 附录 A AEA] 


调用 只 有 一 次 ( 卷 2 的 16.7 布 说 明 该 调用 是 sosend 函 数 )。 而 对 流 协议 (TCP) 来 说 ， 对 TCP 输 出 
例 程 的 调用 有 两 次 : 一 次 是 前 100 字 节 用 户 数据 ， 另 一 次 是 第 2 个 100 字 节 用 户 数据 。 确 实 ， 
Tcpdump 证 实 了 要 传送 两 个 100 字 节 报 文 段 的 事实 。 对 协议 输出 例 程 多 了 一 次 调用 就 增加 了 
开销 。 

TCP 和 T/TCP 应 用 曲线 之 间 的 差别 大 约 是 4 ms， 对 所 有 分 组 长 度 几乎 都 一 样 ， 因 为 TITCP 
处 理 的 报 文 段 少 。 图 1-8 和 图 1-12 给 出 了 9 个 TCP 报 文 段 和 3 个 TCP 报 文 段 。 报 文 段 数 的 减少 明 
显 减轻 了 两 端 主机 的 处 理 开 销 。 

图 A-8 总 结 了 图 A-6 和 图 A-7 中 的 Ping、UDP 以 及 T/TCP 和 TCP 客 户 一 服务 器 的 应 用 时 间 神 
E, 没有 考虑 Tcpdump 的 时 间 视 量 。 


TCP: 应 用 程序 
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图 A-8 单个 主机 上 ( 环 回 接口 ) 的 Ping、UDP 及 TCP 和 T/TCP 客 户 一 服务 器 事务 时 间 测 量 


结果 是 预料 之 中 的 。Ping 所 需 的 时 间 最 少 ， 没 有 比 它 更 快 的 了 ， 因 为 Ping 服 务 器 是 在 内 核 
中 的 。UDP 事 务 所 需 时 间 略 大 于 Ping 的 时 间 ， 因 为 数据 要 在 内 核 与 服务 器 之 间 复 制 两 次 以 上 ， 
但 并 不 大 ， 是 UDP 所 需 的 最 小 处 理 时 间 。T/TCP 事 务 所 需 的 时 间 大 约 是 UDP 的 两 倍 ， 因 为 尽 
管 分 组 数量 与 UDP 相同 ， 但 需要 更 多 的 协议 处 理 时 间 ( 我 们 的 应 用 程序 定时 器 并 不 包括 图 1-12 
中 最 后 的 ACK)。TCP 的 事务 时 间 大 约 比 T/TCP 多 50%， 因 为 协议 需要 处 理 的 分 组 数 较 多 。 图 
A-8 中 UDP、T/TCP 和 TCP 之 间 的 相对 时 间 差 与 图 1-14 中 的 不 一 样 ， 因 为 第 1 章 中 的 测量 是 在 实 
际 网 络 上 进行 的 ， 而 本 附录 中 的 测量 是 在 环 测 接口 上 进行 的 。 


A.3 滞后 和 带宽 


在 网 络 通信 中 ， 有 两 个 因素 在 决定 交换 信息 所 需 的 时 间 : 滞后 和 带宽 [Bellovin 1992]。 这 
里 忽略 了 服务 器 处 理 时 间 和 网 络 负 和 荷 ， 以 及 其 他 明显 影响 客户 事务 时 间 的 因素 。 
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滞后 (也 称 为 传播 时 延 ) 是 将 一 个 比特 从 客户 传递 到 服务 器 再 传 回来 所 需 的 固定 时 间 ， 受 光 
速 的 限制 ， 从 而 决定 于 两 个 主机 之 间 电 或 光 信 号 的 传播 距离 。 横 跨 美国 东西 两 岸 之 间 的 事务 
RTT 不 会 低 于 60 ms， 除 韭 有 人 可 以 提高 光速 。 对 滞后 可 做 的 唯一 控制 是 将 两 人 台 主 机 移 近 ,或 
避免 使 用 高 涡 后 的 路 径 ( 如 卫星 链 路 )。 

理论 上 ， 光 波 穿越 美国 的 时 间 应 该 是 大 约 16 ms， 最 小 的 RTT 是 32 ms。60 ms 是 实 

际 的 RTT。 作 为 试验 ， 作 者 曾 在 分 别 位 于 美国 东西 海岸 的 主机 上 运行 过 Traceroute， 只 

观察 横 跨 美国 的 直达 链 路 两 端的 路 由 器 之 间 的 RTT,。 加 州 与 华盛顿 之 间 的 RTT 是 58 ms, 

加 州 与 波士顿 之 间 的 RTT 是 80 ms, 


另 一 方面 ， 带 宽度 量 每 个 比特 进入 网 络 的 速度 ， 发 送 方 以 这 个 速度 顺序 将 数据 送 入 网 络 。 
增加 带宽 只 要 购买 更 快 的 网 络 即 可 。 例 如 ， 如 果 T1 线 路 还 嫌 不 够 快 (大 约 1 544 000 b/s)， 你 可 
以 租用 T3 线 路 (大 约 45 000 000 b/s), 

可 以 用 公园 的 软 管 进行 恰当 的 比喻 (感谢 Ian Lance Taylor): 滞后 是 水 从 水 龙头 流 

到 喷 口 所 需 的 时 间 ， 而 带宽 就 相当 于 每 秒 从 喷 口 流出 的 水 量 。 


一 个 问题 是 ， 网 络 越 来 越 快 ( 即 带 宽 增 加 )， 但 滞后 保持 不 变 。 例 如 ， 要 用 横 跨 美 国 的 T1l 
线路 发 送 100 万 字 节 的 数据 (假设 单程 滞后 是 30 ms)， 需 要 5.21 秒 :5.18 秒 是 带宽 决定 的 ， 另 外 
0.03 秒 是 滞后 造成 的 。 这 时 带宽 是 主要 影响 。 但 是 ， 如 果 采 用 T3 线 路 ， 则 总 时 间 是 208 ms: 
178 ms 是 带宽 决定 的 ， 另 外 30 ms 是 滞后 造成 的 。 这 时 滞后 是 带宽 时 延 的 116。 而 以 150 000 000 
b/s 发 送 则 需要 82 ms; 52 ms 是 带宽 决定 的 ，30 ms 是 滞后 造成 的 。 在 最 后 这 个 例子 中 ， 羔 后 越 
来 越 接近 带宽 时 延 ， 而 在 更 快 的 网 络 中 ， 滞 后 就 成 为 主要 的 时 延 因素 ， 而 不 再 是 带宽 。 

在 图 A-3 中 ， 往 返 洁 后 基本 上 就 是 每 条 曲线 与 y? 轴 的 相交 点 。 最 上 面 两 条 曲线 (大 约 在 
202ms 和 155 ms 处 相交 ) 是 美国 和 欧洲 之 间 的 ， 接 下 来 的 两 条 曲线 (在 98 ms 和 80 ms 处 相交 ) 是 横 
跨 整 个 美国 的 ， 再 下 面 这 条 (大 约 在 30 ms 处 相交 ) 是 美国 东海 岸 的 两 台 主机 之 间 的 。 

随 着 带宽 增加 ， 灌 后 变 得 越 来 越 重要 ， 这 使 得 T/TCP 更 显 优 越 。T/TCP 至 少 使 灌 后 减少 了 
一 个 RTT。 


顺序 发 送 时 延 和 路 由 器 


如 果 我 们 将 T1 线 路 租 给 Internet 服 务 商 ， 用 于 向 另 一 台 以 T1 线 路 连接 到 Internet 的 主机 发 送 数 
据 ， 并 且 已 知 所 有 的 中 间 线 路 都 是 T1 或 更 高 速率 的 线路 ， 我 们 会 对 这 样 带 来 的 结果 感到 惊奇 。 

例如 ， 在 图 A-3 中 ， 如 果 我 们 来 研究 起 始点 为 80 ms、 终 止 点 为 193 ms 的 曲线 ， 它 是 位 于 
Connecticut 的 connix.com 主 机 和 位 于 Arizona 的 noao .edu 主 机 之 间 的 ， 它 与 y 轴 相交 在 80 ms 
处 ， 正 好 反映 了 东西 海岸 之 间 的 RITT( 运 行 Traceroute 程 序 ， 这 在 卷 1 的 第 8 章 有 详细 介绍 ， 其 结 
果 说 明 分 组 的 确切 路 由 是 从 Arizona 出 发 ， 回 到 California， 然 后 到 Texas、Washington DC， 最 
后 到 Connecticut)。 但 如 果 我 们 计算 在 T1 线 路 上 发 送 1400 字 节 所 需 的 时 间 ， 大 约 只 需要 7.5 ms, 
因此 可 以 估计 1400 字 节 分 组 的 RTT 应 该 是 95 ms 左右 ， 远 远 低 于 实际 测 得 的 值 193 ms, 

出 现 这 种 情况 是 因为 发 送 时 延 与 中 间 路 由 器 的 数量 呈 线 性 关系 ， 因 为 每 个 路 由 器 都 必须 
在 转发 之 前 接收 到 整个 数据 报 。 考 虑 图 A-9 中 的 例子 ， 要 从 左边 的 主机 通过 中 间 路 由 器 传送 一 
个 1428 字 节 长 的 分 组 到 右边 的 主机 。 假 设 两 条 链 路 都 是 T1 线 路 ， 发 出 1428 字 节 大 约 需 要 
7.5 ms。 图 中 的 时 钟 是 从 上 向 下 增长 的 。 
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图 A-9 数据 的 顺序 发 送 


第 1 个 箭头 ， 从 时 刻 0 到 1 是 主机 处 理 输出 数据 报 ， 根 据 本 附录 前 面 的 测量 ， 假 设 它 需 要 
1 ms。 然 后 这 些 数据 被 发 送 到 网 络 上 ， 从 开始 发 出 第 1 个 比特 到 最 后 一 个 比特 发 完 ， 需 要 7.5 
ms。 另 外 在 线路 两 端 之 间 还 有 5 ms 的 滞后 ， 因 此 第 1 个 比特 到 达 路 由 器 是 时 刻 6， 最 后 一 个 比 
特 则 是 在 时 刻 13.5 到 达 。 

只 有 在 时 刻 13.5 最 后 一 个 比特 到 达 以 后 ， 路 由 器 才能 转发 该 分 组 ， 我 们 假设 转发 又 需要 1 ms 
时 间 。 这 样 ， 路 由 器 在 时 刻 14.5 发 出 第 1 个 比特 ， 并 且 1 ms( 第 2 段 链 路 的 滞后 ) 以 后 到 达 目 的 主 
机 。 最 后 一 个 比特 到 达 目 的 主机 是 在 时 刻 25。 最 后 我 们 假设 目的 主机 的 处 理 又 需要 1 ms, | 

确切 的 数据 速率 是 在 24 ms 内 传送 了 1428 字 节 ， 或 476 000 b/s， 比 T1 的 1/3 还 小 。 如 果 我 们 
忽略 主机 和 路 由 器 处 理 分 组 的 时 间 共 3 ms， 数 据 速 率 是 544 000 b/s, 

如 前 所 述 ， 顺 序 发 送 时 延 与 分 组 所 经 过 的 路 由 器 数量 呈 线 性 关系 。 这 项 时 延 决 定 于 线路 速 
率 ( 带 宽 )、 分 组 长 度 和 中 间 转 发 次 数 (路 由 器 数 )。 例 如 ，552 字 节 分 组 (包含 512 字 布 数据 的 典型 
TCP 报 文 段 ) 在 56 kb/s 线 路 上 是 80 ms， 在 T1 线 路 上 是 2.86 ms， 而 在 T3 线 路 上 则 只 要 0.10 ms, 
这 样 ，10 段 T1 线 路 就 要 给 总 时 间 加 上 28.6 ms( 几 平等 于 东西 海岸 之 间 的 单程 滞后 )， 而 10 段 T3 
线路 只 增加 1 ms 人 与 名 后 相 比 几 乎 可 以 忽略 )。 

最 后 ， 顺 序 发 送 时 延 是 一 种 滞后 效应 ， 而 不 是 带宽 效应 。 例 如 ， 在 图 A-9 中 ， 左 边 的 发 送 
主机 可 以 在 时 刻 8.5 开 始 发 送 下 一 个 分 组 的 第 1 比特 ， 而 不 必 等 到 时 刻 24 以 后 才 开 始 发 送 下 一 
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个 分 组 。 如 果 左 边 的 主机 连续 发 送 10 个 1428 字 节 分 组 ， 假 设 分 组 之 间 没 有 间隙 ， 则 最 后 一 个 
分 组 的 最 后 一 个 比特 的 到 达 时 刻 是 91.5(24+9 x 7.5)。 这 样 的 数据 速率 是 1 248 525 b/s， 非 常 接 
近 T1 的 速率 。 对 TCP 来 说 ， 只 是 需要 一 个 比较 大 的 窗口 来 抵消 顺序 发 送 时 延 。 

回 到 我 们 前 面 的 例子 ， 从 connix .com 到 noao .edu， 如 果 我 们 用 Traceroute 确 定 了 确切 
的 路 径 ， 知 道 了 每 条 链 路 的 速率 ， 就 可 以 把 两 台 主 机 之 间 12 个 路 由 器 上 的 顺序 发 送 时 延 考 虑 
进去 。 这 样 ， 再 假设 训 后 时 间 80 ms， 每 个 中 间 线 路 段 有 0.5 ms 的 处 理 时 延 ， 我 们 估算 的 总 时 
延 就 是 187 ms。 这 已 经 很 接近 实测 值 193 ms， 比 前 面 的 估算 值 95 ms 要 接近 得 多 。 


附录 B 编写 ITCP 应 用 程序 


在 第 一 部 分 ， 我 们 介绍 了 T/TCP 的 两 大 好 处 : 

1) 避免 了 TCP 的 三 次 握手。 

2) 减少 了 连接 持续 时 间 短 于 MSL 时 处 于 TIME_WAIT 状 态 的 时 间 。 

如 果 一 个 TCP 连 接 两 端的 主机 支持 TITCP， 那 么 第 2 条 好 处 是 所 有 的 TCP 应 用 程序 都 能 感 
受到 的 ， 不 需要 修改 程序 。 

然而 ， 为 了 避免 三 次 握手 ， 应 用 程序 中 对 connect 和 write 函 数 的 调用 要 改写 为 调用 
sendto 和 sendmsg。 为 了 把 FIN 标 志 与 数据 组 合 在 一 起 ， 应 用 程序 必须 在 最 后 一 次 调用 
send、sendato 或 sendmsg 国 数 时 指定 MSG_EOoF 标 志 ， 同 时 不 再 调用 shutdown。 我 们 在 第 
1 章 介 绍 TCP 和 T/TCP 的 客户 和 服务 器 时 说 明了 这 些 差 别 。 

为 了 使 可 移植 性 最 好 ， 我 们 要 求 在 编写 应 用 程序 时 充分 利用 T/TCP， 鞭 条 件 是 : 

1) 将 要 执行 编译 的 主机 支持 T/TCP，; 

2) 应 用 程序 要 编译 成 支持 T/TCP。 

如 果 运 行程 序 的 主机 支持 T/TCP， 那 么 第 2 个 条 件 也 是 在 运行 时 要 确定 的 ， 因 为 有 时 会 在 
操作 系统 的 某 个 版 本 上 编译 程序 ， 而 在 另 一 个 版 本 上 运行 。 

如 果 在 <sys/socket .h> 头 文件 中 定义 了 MSG_EOF 标 志 ， 那 就 是 说 要 执行 程序 编译 的 
主机 支持 T/TCP。 这 会 在 C 预 处 理 器 的 #ifdef 语 句 中 用 到 。 

#ifdef MSG EOF 

/* 主机 支持 T/TCP */ 
delse 
/* ELA xt T/TCP */ 

#endif ` 

第 2 个 条 件 要 求 应 用 程序 采用 隐 式 打开 (用 sendto 或 sendmsg 指 定 目标 地 址 ， 不 调用 
connect), 但 要 考虑 在 主机 不 支持 T/TCP 时 处 理 连接 失败 。 在 不 支持 T/TCP 的 主机 上 ， 当 采 
用 面向 连接 的 插口 但 没有 连接 上 时 ， 所 有 的 输出 函数 都 会 返回 ENOTCONN( 卷 2 的 图 16-34)。 这 
一 点 对 伯克利 版 系统 和 SVR4 插 口 库 都 适用 。 举 个 例子 ， 如 果 应 用 程序 在 调用 sendto 了 时 接收 - 
到 错误 指示 ， 那 它 就 改 为 调用 connect。 


TCP 或 T/TCP 的 客户 和 服务 器 


我 们 可 以 在 下 面 的 程序 中 实现 这 些 思 想 ， 这 些 程 序 只 是 对 第 1 章 的 T/TCP 与 TCP 的 客户 和 
服务 器 程序 做 了 简单 修改 。 与 第 1 章 中 的 C 语 言 程序 一 样 ， 这 里 也 不 对 程序 做 详细 介绍 ， 同 样 
假设 读者 已 经 对 插口 编程 有 一 定 的 了 解 。 第 一 个 程序 如 图 B-1 所 示 ， 是 客户 的 main 函 数 。 
8-13 用 服务 器 的 IP 地 址 和 端口 号 填 入 Internet 插 口 地 址 结构 ， 这 两 个 参数 来 自命 令 行 。 
15-17 用 函数 send_request 向 服务 器 发 送 请 求 。 如 果 一 切 正 常 ， 则 这 个 函数 返回 插口 描 
述 符 ;否则 返回 一 个 负数 ， 表 示 错 误 。 第 3 个 变量 (1) 告 诉 函 数 要 在 发 送 完 请 求 以 后 再 发 送 一 个 
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18-19 水 数 read stream 与 图 1-6 中 的 同名 函数 一 样 。 
1 #include "cliserv.h" 
2 int 
3 main(int argc, char *argv[]) 
å ( /* T/TCP or TCP client */ 
5 struct sockaddr in serv; 
6 char request[REQUEST], reply[REPLY]; 
7 int sockfd, n; 
8 if (argc l= 3) 
9 err quit("usage: client «IP address of server» <port#>"); 
10 memset(&serv, 0, sizeof(serv)); 
ti serv.sin_family = AF_INET; 
12 serv.sin addr.s addr = inet addr(argv[1]); 
13 serv.sin port = htons(atoi(argv[21)); 
14 /* form request[] ... */ 
15 if ((sockfd = send request(request, REQUEST, 1, 
16 (SA) &serv, sizeof(serv))) < 0) 
17 err sys("send request error $d", sockfd); 
18 if ((n = read stream(sockfd, reply, REPLY)) < 0) 
19 err sys("read error"); 
20 /* process "n" bytes of reply[] ... */ 
21 exit(0); 
24 3 


图 B-1 T/TCP 或 TCP 客 户 的 main 函 数 


函数 send request 如 图 B-2 所 示 。 


N 


#include "cliserv.h" 
*include «errno.h» 
*include «netinet/tcp.h» 


client.c 


client.c 


sendrequest.c 


/* Send a transaction request to a server, using T/TCP if possible, 
else TCP. Returns < 0 on error, else nonnegative socket descriptor. */ 


* 


int 
send request(const void *request, size t nbytes, int sendeof, 


( 


const SA servptr, int servsize) 


int sockfd, n; 


if ((sockfd = socket(PF INET, SOCK STREAM, 0)) < 0) 
return (-1); 


*ifdef  MSG EOF /* T/TCP is supported on compiling host */ 


n= 1; 
if (setsockopt(sockfd, IPPROTO TCP, TCP NOPUSH, 
(char *) &n, sizeof(n)) < 0) ( 
if (errno -- ENOPROTOOPT) 


图 B-2 send requestH EE. 用 T/TCP 或 TCP 发 送 请 求 
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18 goto doconnect; 
19 return (-2); 
20 ) 
21 if (sendto(sockfd, request, nbytes, sendeof ? MSG EOF : O0, 
22 servptr, servsize) !- nbytes) ( 
23 if (errno -- ENOTCONN) 
24 goto doconnect; 
25 return (-3); 
26 ) 
27 return (sockfd); /* success */ 
28 doconnect: /* run-time host does not support T/TCP */ 
29 #endif 
30 val 
31 * Must include following code even if compiling host supports 
32 * T/TCP, in case run-time host does not support T/TCP. 
33 ^y 
34 if (connect(sockfd, servptr, servsize) < 0) 
35 return (-4); 
36 if (write(sockfd, request, nbytes) !- nbytes) 
37 return (-5); 
38 if (sendeof && shutdown(sockfd, 1) « 0) 
39 return (-6); 
40 return (sockfd); /* success */ 
41 ) 
sendrequest.c 
图 B-2 ( 续 ) 
1. 试 试 T/TCP 的 sendto 


13-29 如 果 执 行 编译 的 主机 支持 TITCP， 这 段 程序 就 会 执行 。 我 们 在 3.6 节 讨论 过 插口 选项 
TCP_NOPUSH。 如 果 运 行 该 程序 的 主机 不 支持 T/TCP， 则 对 setsockopt 函 数 的 调用 将 返回 
ENOPROTOOPT, 程序 将 转移 到 前 面 的 分 支 ， 执 行 常规 的 TCP 调 用 connect。 如 果 函 数 要 求 
的 第 3 个 变量 为 非 0 值 ， 则 发 出 请 求 后 还 会 发 出 结束 标志 。 l 

2. 发 出 正常 的 TCP 调 用 
30-40 这 些 是 常规 的 TCP 程 序 ，connect、write 和 可 选 的 shutdown。 

服务 器 的 main 函 数 如 图 B-3 所 示 ， 几 乎 没有 改变 。 





seruer.c 
1 #include "cliserv.h" 
2 int 
3 main(int argc, char *argví]) 
4 { /* T/TCP or TCP server */ 
5 struct sockaddr in serv, cli; 
6 char request[REQUEST], reply[REPLY]; 
7 int listenfd, sockfd, n, clilen; 
8 if (argc !- 2) 
9 err quit("usage: server «portf-"); 
10 if ((listenfd = socket(PF INET, SOCK STREAM, 0)) < 0) 
11 err sys("socket error"); 
12 memset(&serv, 0, sizeof(serv)); 


图 B-3 服务 器 的 main 函 数 
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13 serv.sin family - AF INET; 

14 serv.sin addr.s addr - htonl(INADDR ANY); 

15 serv.sin port = htons(atoi(argv[1])):; 

16 if (bind(listenfd, (SA) &serv, sizeof(serv)) < 0) 

17 err sys("bind error"); 

18 if (listen(listenfd, SOMAXCONN) < 0) 

19 err sys("listen error"); 

20 for (;:) ( 

21 clilen = sizeof(cli); 

22 if ((sockfd - accept(listenfd, (SA) &cli, &clilen)) « 0) 
23 err sys("accept error"); 

24 if ((n = read stream(sockfd, request, REQUEST)) < 0) 

25 err sys("read error"); 

26 /* process "n" bytes of request[] and create reply[] ... */ 


27 $ifndef MSG EOF 


28 #define MSG EOF 0 /* send() with flags-0 identical to write() */ 
29 #endif ， 
30 if (send(sockfd, reply, REPLY, MSG EOF) !- REPLY) 
3l err sys("send error"); 
32 close(sockfd); 
33 ) 
34 ) 
Seroer.c 
图 B-3 (£x) 


27-31 唯一 的 修改 是 这 里 总 是 调用 send( 图 1-7 中 调用 了 write), 但 如 果 主 机 不 支持 T/TCP， 
就 让 第 4 个 变量 的 值 为 0。 即 使 编译 时 主机 是 支持 T/TCP 的 ， 到 运行 时 也 可 能 主机 并 不 支持 
T/TCP( 因 此 运行 时 的 内 核 不 一 定 能 够 理解 编译 时 的 MSG_EOF 值 )， 因 此 ， 在 伯克利 版 内 核 中 
的 sosend 并 不 会 对 它 所 不 理解 的 标志 做 出 申诉 。 
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International Organization for Standardization， 国 际 标准 化 组 织 
Initial Send Sequence number， 初 始 发 送 序号 

Local Area Network， 局 域 网 

Line Feed， 换 行 

Multipurpose Internet Mail Extensions， 通 用 因特网 邮件 扩充 
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MSL Maximum Segment Lifetime， 报 文 段 最 大 生存 时 间 

MSS Maximum Segment Size， 报 文 段 最 大 长 度 

MTU Maximum Transmission Unit， 最 大 传输 单元 

NCSA National Center for Supercomputing Applications， 国 家 超级 计算 中 心 (美国 ) 
NFS Network File System， 网 络 文件 系统 

NNRP Network News Reading Protocol， 网 络 新 闻 读 取 协 议 

NNTP Network News Transfer Protocol， 网 络 新 闻 传 送 协议 

NOAO National Optical Astronomy Observation, ， 国 家 光学 天 文 观测 (美国 ) 
NOP No Operation， 无 操作 

OSF Open Software Foundation， 开 放 软 件 基金 

OSI Open Systems Interconnection， 开 放 系 统 互 连 

PAWS Protection Against Wrapped Sequence number, DIE F3 & 
PCB Protocol Control Block， 协 议 控 制 块 

POSIX Portable Operation System Interface， 可 移植 操作 系统 接口 
PPP Point-to-Point Protocol， 点 对 点 协议 

PSH TCP 首 部 中 的 急迫 (PuSH) 标 志 

RDP Reliable Datagram Protocol， 可 靠 数 据 报 

RFC Request For Comment， 是 Internet 的 文档 ， 意 思 是 “请 提 意 见 ”。 
RPC Remote Procedure Call， 远 程 过 程 调 用 

RST TCP 首 部 中 的 重建 (ReSeT) 标 志 

RTO Retransmission Time OQut， 重 传 超 时 

RTT Round-Trip Time， 往 返 时 间 

SLIP Serial Line Internet Protocol， 串 行 线路 因特网 协议 

SMTP Simple Mail Transfer Protocol， 简 单 邮件 传送 协议 

SPT Server Processing Time， 服 务 器 处 理 时 间 

SVR4 System V Release 4， 系 统 V 版 本 4 

SYN TCP 首 部 中 的 序号 同步 (SYNchronous sequence number ) 标 志 
TAO TCP Accelerated Open，TCP 加 速 打 开 

TCP Transmission Control Protocol, Efire tthis 

TTL Time-To-Live， 寿 命 ， 或 生存 时 间 

Telnet 远程 登录 协议 

UDP User Datagram Protocol， 用 户 数据 报 协 议 

URG TCP 首 部 中 的 紧急 (URGent) 指 针 

URI Universal Resource Identifier， 通 用 资源 标识 符 

URL Uniform Resource Locator， 统 一 资源 定位 符 

URN Uniform Resource Name ， 统 一 资源 名 字 

VMTP Versatile Message Transaction Protocol， 通 用 报 文 事务 协议 
WAN Wide Area Network， 广 域 网 


WWW World Wide Web, Jj W] 
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TCP/IP 详 解 3$1: 协议 ( 原 书 第 2 版 ) 
作者 : Kevin R. Fall, W. Richard Stevens 译 者 : RA 吴 功 宜 
ISBN: 978-7-111-45383-3 定价 : 129.00 元 


TCP/IP 详 解 卷 1: 协议 (英文 版 第 2 版 ) 


ISBN: 978-7-111-38228-7 定价 ; 129.00 元 


我 认为 本 书 之 所 以 领先 群 伦 、 独 一 无 二 ， 是 源 于 其 对 细节 的 注重 和 对 历史 的 关注 。 书 中 介绍 了 计算 机 网 
络 的 背景 知识 ， 并 提供 了 解决 不 断 演变 的 网 络 问题 的 各 种 方法 。 本 书 一 直 在 不 懈 努 力 ， 以 获得 精确 的 答案 和 
探索 剩余 的 问题 域 。 对 于 致力 于 完善 和 保护 互联 网 运营 或 探究 长 期 存在 的 问题 的 可 选 解决 方案 的 工程 师 ， 本 
书 提供 的 见解 将 是 无 价 的 。 作 者 对 当今 互联 网 技术 的 全 面 阐述 和 透彻 分 析 是 值得 称赞 的 。 


一 一 Vint Cerf ,互联 网 发 明 人 之 一 ， 图 灵 奖 获得 者 


《TCRP/IP 详 解 》 是 已 故 网 络 专家 、 著 名 技术 作家 W.Richard Stevens 的 传世 之 作 ， 内 容 详 尽 且 极 具 权 
威 性 ， 被 誉 为 TCP/IP 领 域 的 不 朽 名 其。 本 书 是 《TCP/IP 详 解 》 第 1 卷 的 第 2 版 ， 主 要 讲述 TCP/IP 协 议 ， 结 合 
大 量 实例 介绍 了 TCP/IP 协 议 族 的 定义 原因 ， 以 及 在 各 种 不 同 的 操作 系统 中 的 应 用 及 工作 方式 。 第 2 版 在 保留 
Stevens 卓 越 的 知识 体系 和 写作 风格 的 基础 上 ， 新 加 入 的 作者 Kevin R.Fall 结 合 其 作为 TCP/IP 协 议 研 究 领域 领 
导 者 的 尖端 经 验 来 更 新 本 书 ， 反 映 了 最 新 的 协议 和 最 佳 的 实践 方法 。 
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计算 机 网 络 : 自 顶 向 下 方法 ( 原 书 第 6 版 ) 
作者 : James F. Kurose, Keith W. Ross 译 者 : 陈 鸣 等 
ISBN: 978-7-111-45378-9 定价 : 79.007 


本 书 是 当前 世界 上 最 为 流行 的 计算 机 网 络 教材 之 一 ， 采 用 作者 独创 的 自 顶 向 下 方法 讲授 计算 机 网 络 的 原 
理 及 其 协议 ， 即 从 应 用 层 协 议 开 始 沿 协议 栈 向 下 讲解 ， 让 读者 从 实现 、 应 用 的 角度 明白 各 层 的 意义 ， 强 调 应 
用 层 范例 和 应 用 编程 接口 ， 使 读者 尽快 进入 每 天 使 用 的 应 用 程序 之 中 进行 学 习 和 “创造 ”,。 

本 书 第 1~6 章 适合 作为 高 等 院 校 计算 机 、 电 子 工程 等 相关 专业 本 科 生 “计算 机 网 络 ” 课 程 的 教材 ， 第 7~9 
章 可 用 于 硕士 研究 生 “ 高 级 计算 机 网 络 ”教学 。 对 计算 机 网 络 从 业者 、 有 一 定 网 络 基础 的 人 员 甚 至 专业 网 络 
研究 人 员 ， 本 书 也 是 一 本 优秀 的 参考 书 。 


计算 机 网 络 : 系统 方法 ( 原 书 第 5 版 ) 
作者 : Larry L.Peterson, Bruce S.Davie 译 者 : 王 勇 等 
ISBN: 978-7-111-49907-7 定价 : 99.00 元 


本 书 是 计算 机 网 络 领域 的 经 典 教科 书 ， 凝 聚 了 两 位 顶尖 网 络 专家 几 十 年 的 理论 研究 、 实 践 经 验 和 大 量 第 
一 手 资料 ， 自 出 版 以 来 已 经 成 为 网 络 课程 的 主要 教材 之 一 ， 被 美国 哈佛 大 学 、 斯 坦 福 大 学 、 卡 内 基 - 梅 隆 大 
学 、 康 奈 尔 大 学 、 普 林 斯 顿 大 学 等 众多 名 校 采用 。 

本 书 采 用 “系统 方法 ”来 探讨 计算 机 网 络 ， 把 网 络 看 作 一 个 由 相互 关联 的 构造 模块 组 成 的 系统 ， 通 过 实 
际 应 用 中 的 网 络 和 协议 设计 实例 ， 特 别 是 因特网 实例 ， 讲 解 计算 机 网 络 的 基本 概念 、 协 议和 关键 技术 ， 为 学 
生 和 专业 人 士 理解 现行 的 网 络 技术 以 及 即将 出 现 的 新 技术 葛 定 了 良好 的 理论 基础 。 无 论 站 在 什么 视角 ， 无 论 
是 应 用 开发 者 、 网 络 管理 员 还 是 网 络 设备 或 协议 设计 者 ， 你 都 会 对 如 何 构建 现代 网 络 及 其 应 用 有 “ERR 
的 理解 。 
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TCP/IP 详 解 卷 3: TcP 事 务 协议 、HTTP、NNTP 和 UNIX 域 协议 


TCP/IP Illustrated volume 3: TCP for Transactions, HTTP, NNTP, and the UNIX Domain Protocols 





“本 卷 保 持 了 这 套 书 前 两 卷 的 极 高 质量 ， 在 新 的 方向 上 扩充 了 对 网 络 实现 技术 的 深入 介绍 ， 对 于 渴望 了 解 当 
今 jhtemet 工 作 原 理 的 任何 人 来 说 ， 该 套 书 不 可 不 读 
Ian Lance Taylor 


GCC 社区 的 超级 活跃 人 物 ，GCioogle 公 司 担 任 首 席 工 程 师 


《TCPHP 详 解 》 这 套 书 采 用 唯一 且 高 效 的 可 视 方法 ， 审 视 和 介绍 了 TCP/IP 协 议 族 的 方方面面 ， 深 入 、 
细致 、 清 楚 地 讲解 了 TCP/IP 的 内 部 工作 机 理 ， 受 到 评论 员 、TCP/P 编 程 人 员 及 其 他 相关 人 员 的 广泛 好 评 ， 

第 3 卷 覆 盖 了 当今 TCP/IP 编 程 人 员 和 网 络 管理 人 员 必 须 熟练 掌握 的 四 个 基本 方面 : 

e T/TCP(TCP 事 务 协 议 )， 这 是 对 TCP 的 扩展 ， 使 客户 -服务 器 间 的 事务 传输 更 快 、 更 有 效 和 更 可 靠 ; 

e HTTP( 超 文本 传输 协议 )， 这 是 飞速 扩展 中 的 万 维 网 的 基础 ; 

e NNTP( 网 络 新 闻 传输 协议 )， 这 是 Usenet 新 闻 系 统 的 基础 ; 

e UNIX 域 协议 ， 这 是 在 UNIX 实 现 中 应 用 非常 广泛 的 一 套 协 议 


与 前 面 两 卷 一 样 ， 本 书 有 丰富 的 例子 和 实现 细节 ， 它 们 都 是 4.4BSD-Lite 中 的 网 络 代码 。 
《TCP/IP 详 解 》 这 套 书 给 出 了 Internet 赖 以 存在 的 协议 族 的 全 面 叙 述 ， 提 供 了 大 量 的 网 络 技 术 前 沿 信 
息 ， 有 助 于 编程 人 员 、 系 统管 理 人 员 和 关心 细节 的 用 户 理解 相关 知识 并 站 在 时 代 前 列 。 
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